44 
XE 
ES 
zi 
eB 
3 


玉玲 编著 
李 仁 发 ÈR 


m 
š 
R 
T 


33 


清华 大 学 出 版 社 


高 等 院 校 信息 技术 规划 教 村 


数字 内 容 安 全 原理 与 应 用 


E k 龙 A 刘玉玲 编著 
李 仁 发 ” 主 审 


清华 大 学 出 版 社 
k 京 


内 容 简 介 


本 书 全 面 介 绍 了 数字 内 容 安全 技术 的 起 源 、 研 究 发 展 和 应 用 。 全 书 共 分 为 10 章 , 内 容 包 括 绪论 、 信 
息 加 密 技术 、 消 息 认证 与 数字 签名 \ 信 息 隐 藏 与 数字 水 印 ,数字 取证 技术 、 文 本 内 容 安 全 数字 图 像 内 容 
安全 ,数字 音频 内 容 安全 、 数 字 视 频 内 容 安全 和 数据 库 安全 。 

本 书 适合 作为 信息 安全 专业 本 科 高 年 级 学 生 以 及 研究 生 的 专业 课 教 材 ,也 可 供 从 事 信 息 安 全 专业 
技术 人 员 阅 读 参考 。 


本 书 封面 贴 有 清华 大 学 出 版 社 防伪 标签 ,无 标签 者 不 得 销售 。 
版 权 所 有 ,侵权 必 究 。 侵 权 举 报 电话 : 010-62782989 13701121933 


图 书 在 版 编目 (CIP) 数据 


数字 内 容 安 全 原理 与 应 用 / 彭 飞 等 编著 .一 北京 : 清华 大 学 出 版 社 ,2012.7 
(高 等 院 校 信息 技术 规划 教材 
ISBN 978-7-302-28429-1 


I. Ož D. O% T. 信息 安全 一 高 等 学 校 一 教材 IV. DTP309 
中 国 版 本 图 书馆 CIP 数据 核 字 (2012) 第 060477 号 


责任 编辑 : 白 立 军 M 冰 
封面 设计 : 传 瑞 学 
责任 校对 : 白 d 
责任 印 制 : Edd 


出 版 发 行 : 清华 大 学 出 版 社 
网 HE: http://www. tup. com. cn, http://www. wqbook. com 
地 db. 北京 清华 大 学 学 研 大 厦 A E AB  ” 编 : 100084 
社 总 机 : 010-62770175 邮 W: 010-62786544 
投稿 与 读者 服务 : 010-62776969, c-service(2 tup. tsinghua. edu. cn 
质量 反馈 : 010-62772015, zhiliang(2) tup. tsinghua. edu. cn 
: 北京 世 知 印 务 有 限 公司 
三 河 市 新 茂 装 订 有 限 公司 
全 国 新 华 书店 
185mmX260mm 印 张 : 18.25 字 数 : 435 FF 
: 2012 年 7 月 第 1 版 印 次 : 2012 年 7 月 第 1 次 印刷 
: 1 一 2000 
: 39. 50 元 


EE 


EZINII 
Sa 


产品 编号 : 045555-01 


af 


oil) 


随 着 信息 技术 的 发 展 ,数字 内 容 已 成 为 信息 的 重要 表现 形式 。 
由 于 数字 内 容 在 互联 网 上 使 用 的 便捷 性 大 大 超过 了 传统 模拟 形式 
的 信息 内 容 , 其 应 用 的 广度 和 深度 还 在 不 断 增 加 ,数字 内 容 产业 已 
初 见 规 模 。 然 而 ,数字 内 容 在 给 人 们 生活 和 工作 带 来 便利 的 同时 ， 
也 面临 着 严重 的 安全 威胁 。 这 些 威 胁 主要 包括 数字 内 容 的 非法 复 
制 和 传播 ,导致 重要 信息 泄露 、 数 字 资 产 被 盗窃 ;数字 内 容 的 非 授 权 
得 改 ,严重 影响 正常 工作 进行 ;数字 内 容 的 伪造 ,导致 系统 混乱 ,以 
至 造成 各 种 负面 影响 ;数字 内 容 的 可 用 性 ,由 于 非法 数据 或 非 正常 
数据 等 导致 其 他 数字 内 容 的 无 法 正常 和 有 效 使 用 。 安 全 问题 已 逐 
渐 成 为 制约 数字 内 容 推 广 应 用 的 主要 瓶颈 之 一 。 因 此 ,提高 全 社会 
的 安全 意识 和 加 强 信息 安全 专业 知识 的 教育 是 保障 数字 内 容 产业 
健康 、 稳 步 、 快 速 发 展 的 前 提 和 基础 。 

数字 内 容 安全 是 当前 信息 安全 领域 的 一 个 重要 研究 领域 ,其 相 
关 技 术 还 在 不 断 完善 。 本 书 的 作者 在 数字 内 容 安 全 领域 开展 了 一 
些 教 学 和 研究 工作 ,并 深 感 数字 内 容 安全 领域 的 重要 性 和 良好 的 发 
展 前 景 。 作 者 结合 自己 所 在 单位 信息 安全 专业 本 科 生 和 相关 方向 
研究 生 培养 的 实际 情况 ,编著 和 出 版 本 书 作为 专业 课程 教材 。 

全 书 共 分 为 10 章 , 其 中 第 1 一 5 章 主要 为 原理 方面 的 介绍 ;第 
6 一 10 章 是 应 用 方面 的 介绍 。 第 1 章 介绍 数字 内 容 的 特征 、 功 能 以 
及 分 类 等 基本 概念 ,分 析 数 字 内 容 所 面临 的 威胁 ,并 介绍 数字 内 容 
安全 的 研究 内 容 与 发 展 历程 。 第 2 章 介 绍 密码 学 的 基本 原理 ,主要 
包括 古典 密码 学 、 对 称 密码 技术 、 公 钥 密码 技术 以 及 一 些 新 兴 的 密 
码 技 术 ( 如 混沌 密码 技术 与 量子 密码 技术 等 ), 并 列 出 一 些 经 典 的 密 
码 算 法 。 第 3 章 介 绍 消息 认证 与 数字 签名 的 基本 概念 、 消 息 认 证 的 
模式 与 认证 方式 、 单 向 Hash 函数 与 消息 认证 码 的 基本 原理 、 常 用 的 
数字 签名 及 一 些 认证 的 方法 和 技术 。 第 4 章 介绍 信息 隐藏 与 数字 
水 印 的 基本 原理 ,主要 包括 信息 隐藏 与 数字 水 印 技术 的 基本 概念 、 
空域 和 变换 域 的 信息 隐藏 技术 、 数 字 水 印 技术 以 及 信息 隐藏 与 数字 
水 印 的 发 展 与 应 用 等 。 第 5 章 介 绍 数字 取证 的 基本 原理 与 相关 技 


Qi asstumssa 


术 , 主 要 包括 数字 取证 的 技术 分 类 、 数 字 内 容 纂 改 取证 、 数 字 内 容 来 源 取证 以 及 数字 内 容 
隐秘 分 析 取 证 ,并 介绍 一 些 经 典 的 取证 案例 与 取证 方法 。 第 6 章 介绍 文本 信息 的 基本 概 
念 与 文本 内 容 的 安全 技术 ,具体 包括 文本 内 容 加 密 、 文 本 水 印 及 文本 隐 写 分 析 技 术 等 。 
第 7 章 针对 数字 图 像 的 特点 ,介绍 数字 图 像 以 及 数字 图 像 内 容 的 相关 概念 ,对 数字 图 像 
加 密 技术 、 数 字 图 像 水 印 技术 以 及 数字 图 像 隐 写 分 析 技 术 进 行 深入 的 阐述 。 第 8 章 对 数 
字音 频 内 容 安 全 的 有 关 概 念 和 方法 进行 介绍 ,主要 包括 数字 音频 内 容 加 密 、 数 字音 频 隐 
写 与 水 印 等 方面 。 第 9 章 对 数字 视频 内 容 安全 的 有 关 概 念 和 方法 进行 介绍 ,主要 包括 数 
字 视 频 内 容 加 密 、 数 字 视 频 隐 写 与 水 印 、 数 字 视 频 隐 写 分 析 技 术 与 数字 视频 取证 等 方面 
的 知识 。 第 10 章 介 绍 数 据 库 的 基本 特性 以 及 数据 库 所 面临 的 安全 威胁 ,对 当前 数据 库 
安全 技术 进行 全 面 的 介绍 。 具 体 包 括 数 据 库 的 机 密 性 、 完 整 性 ,访问 控制 以 及 安全 管理 
等 方面 的 知识 。 每 章 末 均 给 出 了 适量 的 思考 题 作为 巩固 所 学 内 容 之 用 。 

本 书 作为 教材 适合 于 48 一 64 学 时 的 教学 ,建议 的 教学 方式 为 课堂 讲授 与 实验 相 结 
合 ,教师 可 根据 书 上 的 练习 题 , 指 导 学 生 进 行 编程 或 仿真 实验 ,通过 对 原理 和 应 用 算法 的 
实验 ,进一步 加 深 学 生 对 所 学 内 容 的 理解 。 

本 书 适合 作为 信息 安全 专业 本 科 高 年 级 学 生 以 及 研究 生 的 专业 课 教材 ,也 可 供 从 事 
信息 安全 专业 的 技术 人 员 和 研究 人 员 阅 读 参考 。 

本 书 作者 多 年 来 一 直 从 事 信 息 安全 的 教学 和 研究 工作 ,本 书 也 是 网 络 与 信息 安全 湖 
南 省 重点 实验 室 全 体 师 生 多 年 从 事 数 字 内 容 安 全 研究 工作 成 果 的 结晶 。 

本 书 由 彭 飞 负责 编写 ,全 书 由 龙 敏 和 刘玉玲 负责 整理 修改 。 在 本 书 的 编写 过 程 中 ， 
陈 丽 、 朱 小 文 、 李 洪 淋 、 刘 娟 、 李 嫌 婷 等 研究 生 参 与 了 部 分 资料 收集 与 整理 工作 ;湖南 大 学 
信息 科学 与 工程 学 院 李 仁 发 教授 对 本 书 进行 了 认真 细致 的 审阅 并 提供 了 宝贵 的 修改 意 
见 和 建议 ;清华 大 学 出 版 社 为 本 书 的 出 版 提供 了 帮助 ;此 外 本 书 的 编写 还 得 到 了 湖南 大 
学 信息 科学 与 工程 学 院 赵 欢 教授 的 大 力 支持 。 在 此 对 他 们 表示 由 圳 的 感谢 。 

数字 内 容 安全 是 一 门 正在 发 展 中 的 学 科 , 对 本 书 的 编著 是 作者 在 该 领域 的 一 次 尝 
试 ,由 于 作者 水 平 有 限 , 书 中 难免 存在 疏漏 和 错误 之 处 , 望 读 者 提出 宝贵 意见 ,以 方便 作 
者 日 后 修改 和 完善 。 


作 者 
2012 年 4 月 
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绪论 
本 章 学 习 目标 


随 着 信息 技术 的 发 展 , 数 字 内 容 已 成 为 信息 的 重要 表现 形式 。 由 于 互联 网 络 的 不 安 
全 性 ,数字 内 容 的 安全 问题 开始 引起 广泛 的 关注 。 本 章 介 绍 数字 内 容 的 特征 、 功 能 以 及 
分 类 等 基本 概念 ,分 析 数 字 内 容 所 面临 的 威胁 ,并 介绍 了 数字 内 容 安 全 的 研究 内 容 与 发 
展 历程 。 

通过 本 章 的 学 习 , 应 掌握 以 下 内 容 : 

(1) 数字 内 容 的 特征 、 功 能 以 及 分 类 。 

(2) 数字 内 容 所 面临 的 威胁 及 其 分 类 。 

(3) 数字 内 容 安全 的 研究 内 容 与 发 展 的 历程 。 


1.1 数字 内 容 的 基本 概念 


信息 是 人 类 社会 最 重要 的 资源 之 一 ,几乎 人 类 的 一 切 活动 都 依赖 于 信息 的 获取 与 处 
理 。 在 现代 社会 里 ,信息 技术 的 发 展 程度 已 成 为 衡量 一 个 国家 或 民族 是 否 进步 的 重要 指 
标 。“ 信 息 ” 一 词 有 着 悠久 的 历史 , 早 在 两 千 多 年 前 的 西汉 , 即 有 “ 信 ” 字 出 现 。“ 信 ” 常 可 
作 消 息 来 理解 。 但 对 于 “信息 ”一 词 而 言 , 至 今 还 没有 一 个 公认 的 定义 。 从 信息 的 本 质 来 
看 , 它 实际 上 是 指 事物 在 相互 作用 中 所 “刻画 ”出 的 记录 。 信 息 的 记录 方法 和 社会 技术 的 
进步 密 不 可 分 。 古 人 从 * 结 绳 记事 ”在 龟甲 与 兽 骨 上 刻画 象形 文字 、 在 青铜 器 上 铸 字 、 使 
用 木 简 竹 简 作为 文字 载体 ,到 纸张 记录 ,每 一 次 信息 记录 方法 的 改变 ,都 是 当时 社会 进步 
的 一 个 重要 标志 。 进 入 20 世纪 中 叶 以 来 , 随 着 计算 机 技术 与 数字 化 技术 的 发 展 , 越 来 越 
多 的 信息 开始 以 数字 化 的 方式 存在 ,为 了 使 敏感 的 数字 化 信息 内 容 安全 可 靠 ,必须 保证 
数字 内 容 的 安全 。 


1.1.1 数字 内 容 的 概念 与 特征 


所 谓 数字 内 容 ,“ 就 是 以 数字 形式 存在 的 文本 、 图 像 声 音 等 信息 , 它 可 以 存储 在 如 光 
盘 、 硬 盘 等 数字 载体 上 ,并 通过 网 络 等 手段 传播 >。 从 数字 内 容 的 定义 来 看 , 它 包 含 如 下 
三 个 方面 的 含义 : 
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CD 数字 内 容 是 信息 的 一 种 表现 形式 。 也 就 是 说 ,信息 的 概念 更 加 广泛 ,数字 内 容 也 
隶属 于 信息 的 范畴 , 它 只 是 信息 的 一 种 表现 形式 而 已 。 相 对 于 其 他 信息 的 表现 形式 , 数 
字 内 容 的 不 同 之 处 在 于 ,数字 内 容 是 以 数字 化 的 方式 存在 的 。 

(2) 数字 内 容 的 记录 载体 是 数字 化 设备 。 与 以 往 采 用 麻 绳 、 龟 甲 与 兽 骨 .青铜器 、 木 
简 竹简 和 纸张 不 同 ,数字 内 容 记录 在 数字 化 设备 中 ,如 光盘 、U 盘 、 硬 盘 以 及 各 种 类 型 的 
存储 卡 等 。 与 此 同时 ,存储 在 数字 化 设备 中 的 数字 内 容 ,通常 需要 专门 的 设备 才能 进行 
读 取 。 

(3) 数字 内 容 的 传播 手段 是 网 络 。 数 字 内 容 是 可 传播 的 ,数字 内 容 只 有 通过 传播 才 
能 体现 出 它 的 有 用 性 。 对 于 数字 内 容 而 言 ,其 传播 的 手段 主要 是 网 络 , 相 对 于 其 他 手段 ， 
数字 内 容 的 传播 速度 更 加 快捷 。 

数字 内 容 是 当前 信息 记录 的 主要 手段 ,但 它 自 身 不 能 独立 存在 , 它 必 须 依 附 于 某 种 
物质 载体 。 与 信息 一 样 ,数字 内 容 来 源 、 数 字 内 容 归 宿 以 及 数字 内 容 的 传播 信道 是 组 成 
数字 内 容 的 三 大 要 素 。 数 字 内 容 来 源 是 数字 内 容 创建 的 发 源 地 或 出 处 。 数 字 内 容 归宿 
是 数字 内 容 的 接收 者 。 数 字 内 容 的 传播 信道 是 数字 内 容 传递 的 通道 ,是 数字 内 容 来 源 与 
数字 内 容 归 宿 之 间 的 联系 纽带 。 


1.1.2 数字 内 容 的 分 类 


随 着 数字 化 技术 的 发 展 ,数字 内 容 的 内 涵 日 益 丰 富 , 主 要 包括 数字 音像 .科学 出 版 、 
远程 教育 ,动漫 游戏 .金融 信息 ` 政 府 公告 、 网 络 博客 .网络 论 坛 .短信 彩信 、 彩 铃 音乐 等 ， 
涉及 教育 .科学 金融 ,文化 .娱乐 .商业 .通信 等 多 个 领域 。 围 绕 着 这 些 数字 内 容 的 开发 
制作 、 传 递 配送 和 消费 使 用 ,一 个 影响 全 社会 的 大 规模 的 产业 链 正在 形成 。 

从 数字 内 容 的 表现 形式 来 看 ,主要 包括 数字 化 的 文本 、 图 像 、 图 形 、 音 频 、 视 频 等 形 
式 。 就 数字 文本 而 言 , 比 较 常见 的 有 电子 文档 、 网 络 新 闻 、 电 子 邮 件 、 即 时 通信 、 博 客 、 微 
博 等 ;图 像 ,图形 则 包含 栅 格 图 像 ( 如 JPEG, BMP 等 格式 的 图 像 ) 与 矢量 图 形 ( 如 CAD, 
3ds Max,Coredraw 等 图 形 )。 此 外 ,音频 ,视频 也 是 目前 在 新 闻 与 娱乐 中 最 为 常见 的 数 
字 内 容 形式 。 

从 技术 方面 来 讲 , 数 字 内 容 开 发 .数字 内 容 传递 和 数字 内 容 安全 是 组 成 数字 内 容 的 
三 大 支柱 。 数 字 内 容 开 发 一 方面 与 文化 创意 和 艺术 创造 紧密 结合 ,同时 也 与 图 像 . 音 频 、 
视频 Web 2. 0 等 技术 不 可 分 割 ; 随 着 宽带 技术 的 发 展 ,数字 内 容 传递 正在 由 传统 的 离线 
配送 向 互联 网 在 线 传递 和 移动 传递 的 方向 急剧 转变 ,网 络 门 户 、 搜 索引 擎 、 无 线 宽带 , 移 
动 交 互 等 技术 成 为 数字 内 容 传递 的 核心 技术 ;从 一 般 的 信息 安全 的 概念 出 发 ,数字 内 容 
安全 主要 应 保证 内 容 的 隐私 性 、 完 整 性 和 真实 性 。 


1.1.3 数字 内 容 的 特性 


数字 内 容 是 一 种 以 电子 形式 存在 的 数据 ,通常 是 集 文 本 、 图 像 、 图 形 、 音 频 与 视频 于 
一 体 的 综合 信息 ,其 主要 特性 如 下 所 示 。 
CD 数字 化 : 在 此 之 前 的 信息 内 容 几乎 都 是 以 模拟 的 方式 进行 存储 和 传播 ,而 数字 
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内 容 则 是 以 比特 的 形式 通过 数字 化 设备 进行 存储 、 处 理 和 传播 的 。 

(2) 交互 性 : 在 模拟 领域 中 ,要 实现 交互 性 是 非常 困难 的 。 但 在 数字 内 容 中 ,“ 人 机 
交互 作用 ” 则 成 为 可 能 , 故 也 是 数字 内 容 的 一 个 显著 特点 。 

G) 多 样 性 : 主要 是 指数 字 内 容 的 表现 形式 的 多 样 化 。 人 们 可 以 通过 视觉 .听觉 fih 
觉 等 多 种 方式 产生 、 接 收 数字 内 容 ; 数 字 内 容 通常 是 技术 与 艺术 的 融合 , 且 具 有 趣味 性 。 

(4) 集成 性 : 主要 表现 为 数字 内 容 通常 是 多 种 媒体 信息 (如 文本 .图像 .音频 ,视频 
等 ) 的 集成 ,就 是 将 各 种 媒体 信息 按照 一 定 的 规则 构成 一 个 有 机 的 数字 内 容 整体 ,用 来 表 
现 某 种 信息 ,使 得 信息 以 更 为 形象 的 方式 进行 传播 。 

(5) 易 复 制 /分 发 性 : 人 们 也 可 以 借助 数字 技术 和 互联 网 ,免费 并 且 没 有 任何 质量 损 
失地 批量 复制 和 发 行 数字 内 容 或 数字 产品 。 


1.1.4. 数字 内 容 相关 技术 


与 数字 内 容 相关 的 技术 范围 较 广 , 它 是 多 种 学 科 和 多 种 技术 交叉 的 领域 ,其 主要 技 
术 范 畴 包括 以 下 内 容 。 

CD 数字 内 容 的 表示 与 操作 : 包括 数字 化 文字 的 处 理 、 数 字音 频 处 理 、 数 字 图 像 处 
理 、 数 字 视 频 处 理 等 。 

(2) 数字 内 容 压缩 : 包括 通用 压缩 编码 .专用 压缩 编码 技术 (声音 、 图 像 . 视 频 ) 等 。 

(3) 数字 内 容 的 存储 : 包括 光盘 存储 、 移 动 存储 、 网 络 硬盘 存储 等 。 

CD 数字 内 容 的 管理 : 包括 数字 内 容 管理 ,数字 内 容 的 版 权 保护 等 。 

(5) 数字 内 容 传输 : 包括 网 络 传输 技术 ,移动 传输 技术 、 流 媒体 技术 、P2P 技术 等 。 

(6) 数字 内 容 的 安全 : 包括 保证 数字 内 容 的 保密 性 、 完 整 性 、 可 验证 性 、 抗 抵赖 性 、 可 
用 性 等 方面 的 信息 安全 技术 。 


1.2 数字 内 容 面 临 的 威胁 与 分 类 


网 络 技术 的 飞速 发 展 使 得 数字 内 容 在 互联 网 上 使 用 的 便捷 性 大 大 超过 了 传统 的 模 
拟 形式 的 信息 内 容 , 数 字 内 容 在 给 人 们 生活 和 工作 带 来 便利 的 同时 ,也 同时 面临 着 严重 
的 安全 威胁 。 


1.2.1 数字 内 容 面临 的 威胁 


数字 内 容 主要 包括 文档 材料 图纸、 语音 、 视 频 、 程 序 源 代码 等 以 电子 形式 存在 的 数 
据 , 它 们 所 面临 的 威胁 主要 包括 : 

CD 数字 内 容 的 非法 复制 和 传播 ,导致 重要 信息 泄露 数字 资产 被 盗窃 。 

(2) 数字 内 容 的 非 授权 算 改 ,严重 影响 正常 工作 进行 。 

(3) 数字 内 容 的 伪造 ,导致 系统 混乱 ,以 造成 各 种 负面 影响 。 

(4) 数字 内 容 的 可 用 性 ,由 于 非法 数据 或 非 正常 数据 等 导致 其 他 数字 内 容 无 法 正常 
和 有 效 地 使 用 。 
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1.2.2 威胁 的 分 类 


根据 数字 内 容 所 面临 的 威胁 ,可 以 将 威胁 分 为 主动 攻击 和 被 动 攻击 两 类 。 

主动 攻击 是 指 攻 击 者 对 数字 内 容 进 行 某 些 修改 ,或 者 生成 一 个 假 的 数字 内 容 。 它 包 
括 非 授权 的 自 改 、 伪 造 、 内 容重 放 ,、 拒 绝 服务 ,伪装 等 ,通常 主动 攻击 较 容易 被 发 现 。 

被 动 攻击 则 指 攻击 者 不 对 数字 内 容 进行 任何 的 改变 ,只 是 通过 收集 通信 内 容 ,对 其 
进行 分 析 来 获取 数字 内 容 中 的 信息 ,其 攻击 方法 包括 嗅 探 ,信息 收集 等 攻击 方法 。 相 对 
于 主动 攻击 ,被动 攻击 的 检测 十 分 困难 ,但 是 对 这 些 攻击 进行 阻止 是 可 能 的 。 


1.3 数字 内 容 安 全 技术 


针对 数字 内 容 所 面临 的 安全 威胁 ,数字 内 容 安全 技术 应 运 而 生 。 数 字 内 容 安全 技术 
是 伴随 着 数字 化 技术 以 及 网 络 技术 的 发 展 而 发 展 的 。 


1.3.1 数字 内 容 安全 技术 的 发 展 历程 


数字 内 容 安全 技术 的 发 展 与 信息 安全 技术 的 发 展 是 密切 相关 的 ,根据 不 同 数字 内 容 
安全 技术 的 特征 ,可 分 为 如 下 三 个 阶段 。 


1. 基于 密码 术 的 数字 内 容 安全 技术 


在 这 一 阶段 ,数字 内 容 安全 主要 体现 为 数字 内 容 的 通信 安全 ,通常 采用 密码 技术 (如 
对 称 密 钥 密码 .公开 密 钥 密码 HIS] Hash. 函数 .数字 签名 等 ) 保 证 数字 内 容 的 机 密 性 、 完 
整 性 、 可 用 性 和 不 可 否认 性 。 但 是 ,此 类 方法 无 法 阻止 某 些 被 动 攻 击 , 如 攻击 者 可 以 进行 
通信 流量 的 分 析 , 得 到 通信 的 双方 以 及 通信 内 容 的 长 度 。 


2. 基于 信息 隐藏 与 数字 水 印 的 数字 内 容 安全 技术 


针对 基于 密码 术 的 数字 内 容 安全 技术 的 不 足 , 研 究 人 员 提 出 了 基于 信息 隐藏 与 数字 
水 印 的 数字 内 容 安全 技术 。 该 类 技术 通常 通过 将 重要 信息 (如 版 权 信 息 、 机 密 信 息 等 ) 嵌 
和 人 到 没有 安全 要 求 的 载体 中 ,通过 隐藏 重要 信息 的 存在 性 确保 了 信息 的 安全 。 通 过 基于 
信息 隐藏 与 数字 水 印 的 数字 内 容 安全 技术 ,可 保证 载体 的 版 权 ,内 容 的 完整 性 。 但 由 于 
要 在 载体 上 加 载 额外 的 信息 ,此 类 方法 通常 都 会 给 载体 带 来 一 定 程度 的 失真 ,影响 载体 
的 视听 效果 ,严重 时 甚至 会 影响 到 载体 的 可 用 性 。 


3. 基于 数字 取证 的 数字 内 容 安 全 技术 


针对 基于 信息 隐藏 与 数字 水 印 的 数字 内 容 技术 的 不 足 , 研 究 人 员 提 出 了 基于 数字 取 
证 的 数字 内 容 安全 技术 。 该 类 技术 通过 分 析 载 体 的 特性 (如 统计 特性 、 物 理 特 性 、 环 境 特 
性 等 ) 来 判断 载体 的 真实 性 或 来 源 。 此 类 技术 不 需要 在 载体 中 加 入 额外 信息 ,是 当前 数 
字 内 容 安全 技术 中 的 一 个 重要 研究 内 容 。 
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上 述 三 类 数字 内 容 安全 技术 的 侧重 点 各 有 不 同 , 却 均 有 各 自 的 特色 。 在 实际 应 用 
中 ,任何 一 类 技术 均 无 法 解决 数字 内 容 的 所 有 安全 问题 ,需要 三 类 技术 协作 实现 。 


1.3.2 数字 内 容 安全 的 研究 内 容 


数字 内 容 安全 研究 的 内 容 主要 包括 数字 内 容 加 密 / 解 密 、 数 字 内 容 信息 隐藏 .数字 内 
容 取证 等 。 


1. 数字 内 容 加 密 /解密 


数字 内 容 加 密 就 是 按 确定 的 加 密 变 换 方法 (加 密 算法 ) 对 需要 保护 的 数字 内 容 ( 也 称 
为 明文 ) 作 处 理 , 使 其 变换 成 为 难以 识 读 的 数据 ( 密 文 )。 其 逆 过 程 ,即将 密 文 按 对 应 的 解 
密 变 换 方法 (解密 算法 ) 恢 复出 现 明文 的 过 程 称 为 解密 。 

为 了 使 加 密 算法 能 被 许多 人 共用 ,在 加 密 过 程 中 又 引入 了 一 个 可 变量 , 即 加 密 密 钥 。 
这 样 ,不 改变 加 密 算法 ,只 要 按照 需要 改变 密 钥 , 也 能 将 相同 的 明文 加 密 成 不 同 的 密 文 。 

加 密 的 基本 功能 包括 : 防止 不 速 之 客 查看 机 密 的 数据 文件 ,防止 机 密 数 据 汇 露 或 被 
算 改 ;防止 特权 用 户 ( 如 系统 管理 员 ) 查 看 私人 数据 文件 ,使 入侵 者 不 能 轻易 地 查找 一 个 
系统 的 文件 等 。 


2. 数字 内 容 信 息 隐藏 


信息 隐藏 是 将 秘密 消息 隐藏 在 其 他 消息 中 ,这 样 ,真正 存在 的 秘密 就 被 隐藏 了 。 通 
常 发 送 者 将 秘密 信息 隐藏 在 大 家 耳熟能详 的 信息 载体 中 ,如 人 民 日 报 的 社论 ,Internet 上 
广 为 流 传 的 图 片 .流行 音乐 或 电影 等 。 

信息 隐藏 是 继 加 密 技 术 之 后 ,保护 数字 内 容 的 又 一 强 有 力 的 工具 。 信 息 隐 藏 与 传统 
的 信息 加 密 的 明显 区 别 在 于 ,传统 的 加 密 技 术 以 隐藏 信息 的 内 容 为 目的 ,使 加 密 后 的 文 
件 变 得 难以 理解 ,而 信息 隐藏 是 以 隐藏 秘密 信息 的 存在 性 为 目标 。 所 以 科学 技术 的 发 展 
使 信息 隐藏 技术 在 信息 时 代 成 为 新 的 研究 热点 。 它 既 发 扬 了 传统 隐藏 技术 的 优势 ,又 具 
有 了 现代 的 独 有 特性 。 


3. 数字 内 容 取 证 


功能 强大 的 多 媒体 编辑 软件 使 得 数字 图 像 和 音 视 频数 据 等 数字 内 容 的 处 理 变 得 简 
单 , 尽 管 多 数 人 对 数字 内 容 的 修改 只 是 为 了 增强 表现 效果 ,但 也 存在 有 人 出 于 各 种 目的 
传播 经 过 精心 伪造 的 数字 图 像 和 音 视频 数据 。 算 改 和 伪造 的 数字 图 像 和 音 视频 一 旦 被 
用 于 媒体 报道 .科学 发 现 \ 保 险 和 法 庭 证 物 等 ,将 会 对 政治 ,军事 和 社会 的 各 方面 产生 严 
重 的 影响 。 因 此 ,需要 一 种 客观 、 公 正 、 能 够 洪 清 事实 真相 的 验证 技术 ,数字 内 容 取 证 正 
是 为 这 一 目的 而 提出 的 。 

数字 内 容 取 证 通常 按 以 下 两 个 原理 工作 : 

(1) 通过 对 数字 内 容 特 征 进 行 分 析 来 判断 多 媒体 内 容 的 完整 性 、 原 始 性 和 真实 性 。 

(2) 通过 对 残留 在 数字 内 容 内 部 的 设备 印迹 以 及 数字 信号 处 理 后 的 噪声 进行 分 析 来 
追溯 数字 内 容 数据 的 来 源 。 
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根据 应 用 场合 不 同 ,目前 国内 外 数字 内 容 取 证 研究 主要 围绕 以 下 五 个 方面 展开 : 
CD 数字 内 容 的 自 改 检测 ; 

© 数字 内 容 的 来 源 辨识 ; 

@ 多 媒体 设备 的 成 分 取证 ; 

@ 数字 内 容 数 据 的 真实 性 鉴定 ; 

@ 数字 内 容 取 证 的 可 靠 性 。 

就 媒体 类 型 方面 而 言 ,数字 图 像 仍 是 目前 数字 取证 技术 的 主要 研究 对 象 。 


思 考题 


数字 内 容 有 哪些 表现 形式 ? 各 具有 什么 特点 ? 

简 述 主动 攻击 与 被 动 攻 击 的 特点 ,并 以 一 种 数字 内 容 形 式 为 例 列举 主动 攻击 与 被 
动 攻击 现象 。 

简 述 数字 内 容 目 前 所 面临 的 安全 威胁 。 

简 述 当前 数字 内 容 安全 的 主要 研究 内 容 。 
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本 章 学 习 目 标 

密码 技术 是 保护 数字 内 容 安全 的 一 个 重要 手段 。 本 章 将 介绍 密码 学 的 基本 原理 , 主 
要 包括 古典 密码 学 、 对 称 密码 技术 、 公 钥 密码 技术 以 及 一 些 新 兴 的 密码 技术 (如 混沌 密码 
技术 与 量子 密码 技术 等 ), 并 列 出 了 一 些 经 典 的 密码 算法 。 

通过 本 章 的 学 习 , 应 掌握 以 下 内 容 : 

(1) 古典 密码 技术 的 基本 原理 与 分 类 。 

(2) 对 称 密码 技术 与 DES、AES 算法 。 

(3) 对 称 密码 分 析 技 术 。 

OD. 公 角 密码 技术 与 RSA、ElGamal、ECC。 

(5) 混沌 密码 技术 与 量子 密码 技术 的 发 展现 状 。 


2.1 密码 学 基础 


信息 加 密 技术 是 利用 数学 或 物理 手段 ,对 电子 信息 在 传输 过 程 中 和 存储 体内 进行 保 
护 , 以 防 泄露 的 技术 。 保 密 通 信 、 计 算 机 密 钥 、 防 复制 软盘 等 都 属于 信息 加 密 技术 。 它 是 
对 付 各 种 安全 威胁 最 强 有 力 的 工具 。 

本 章 将 介绍 一 些 密码 学 中 的 基础 知识 和 常见 的 密码 学 技术 。 首 先 介绍 了 几 种 常见 
的 古代 加 密 技 术 及 加 密 算 法 的 使 用 环境 ;其 次 讨论 了 对 称 加 密 , 对 称 加 密 是 公 钥 密 码 产 
生 之 前 唯一 的 一 种 加 密 技术 ,主要 用 来 提供 机 密 性 服务 ,目前 仍 有 着 十 分 广泛 的 应 用 背 
景 ; 接 下 来 的 公 钥 密码 技术 ,其 非 对 称 的 独立 密 钥 使 得 其 在 消息 的 保密 性 、 密 钥 分 配 和 认 
证 领域 有 着 重要 的 意义 ;最 后 简单 介绍 了 近年 来 新 兴 的 密码 技术 。 本 章 的 学 习 为 后 面 几 
章 的 内 容 打下 基础 。 

一 个 密码 或 者 密码 体制 用 于 加 密 数 据 ,原始 数据 称 为 明文 (plaintext) ,通过 加 密 
(encryption) 对 明文 进行 编码 形成 密 文 (ciphertext) ,下 面 再 通过 解密 (decryption) 将 密 文 
恢复 成 明文 ,在 密码 体制 中 加 密 和 解密 要 用 到 的 密 钥 (key) 分 别 是 加 密 密 钥 和 解密 密 钥 。 
研究 各 种 加 密 方案 的 学 科 称 为 密码 编码 学 ,研究 破译 密码 获得 消息 的 学 科 称 为 密码 分 析 
学 。 传 统 密码 体制 模型 如 图 2-1 所 示 。 
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明文 -| E -| €x -| RE =| 明文 
图 2-1 传统 密码 体制 模型 


2.2 古典 密码 技术 


在 计算 机 出 现 前 ,密码 学 由 基于 字符 的 密码 算法 构成 。 不 同 的 密码 算法 是 字符 之 间 
互相 代 换 或 者 是 互相 之 间 换 位 ,好 的 密码 算法 结合 了 这 两 种 方法 ,每 次 进行 多 次 运算 。 
现在 事情 变 得 复杂 多 了 ,但 是 原理 还 是 没有 发 生变 化 。 不 同 之 处 在 于 算法 是 对 比特 而 不 
是 对 字母 进行 变换 ,实际 上 这 只 是 字母 表 长 度 上 的 改变 ,从 26 个 元 素 变 为 2 个 元 素 。 大 
多 数 好 的 密码 算法 仍然 是 代替 和 换 位 的 组 合 。 

本 节 将 介绍 4 种 古典 密码 ,每 一 种 都 有 其 独特 的 地 方 。 

(1) 最 古老 的 密码 体制 。 

(2) 代替 密码 。 

(3) 置换 密码 。 其 中 也 包含 现代 密码 学 中 一 些 重要 思想 ,我 们 还 将 讨论 经 典 的 电码 
本 译 码 , 因 为 很 多 现代 密码 学 都 可 视 为 等 价 的 “电子 ”密码 本 。 

(4) 讨论 唯一 的 被 证 明 是 安全 的 密码 体制 一 一 一 次 一 密 密 码 。 


2.2.1 代替 密码 


代替 密码 是 古典 密码 中 常用 到 的 两 种 基本 处 理 技巧 之 一 , 它 在 现代 密码 学 中 依然 得 
到 了 广泛 的 应 用 。 所 谓 代 蔡 ,就 是 将 明文 中 的 字母 用 其 他 字母 ,数字 或 符号 所 取代 的 一 
种 方法 。 常 见 的 代替 密 码 包括 单 表 代替 密码 .多 表 代 替 密 码 和 一 次 一 密 。 


1. 单 表 代 替 密 码 


单 表 代替 密码 对 明文 中 的 所 有 字母 都 使 用 同一 个 映射 , 即 VE P, f: P>C, c= 
了 (p)。 为 了 确保 解密 的 正确 性 ,通常 要 求 映 射 上 是 一 一 映射 的 。 提 到 单 表 代替 密码 就 不 
得 不 先 说 一 下 凯 撤 (Caesar) 密 码 。 凯 撒 密码 作为 一 种 最 为 古老 的 对 称 加 密 体制 ,在 古 罗 
马 的 时 候 都 已 经 很 流行 ,其 基本 思想 是 : 通过 把 字母 移动 一 定 的 位 数 来 实现 加 密 和 解密 。 
例如 ,如 果 密 钥 是 把 明文 字母 的 位 数 向 后 移动 三 位 ,由 此 可 见 , 位 数 就 是 凯撒 密码 加 密 和 
解密 的 密 钥 。 

K 2-1 给 出 的 仅 为 向 后 移动 三 位 的 凯撒 移 位 ,但 显然 从 1 一 26 个 位 置 的 移 位 我 们 都 
可 以 使 用 ,将 凯撒 密码 通用 化 ,可 以 得 到 如 下 移 位 代替 密码 。 

D 移 位 代替 密码 

di: P 二 C= 二 KK 二 Zwo, 这 里 ,P、C、K、Zzs 分 别 表 示 明 文 空间 、 密 文 空间 、 密 钥 空 间 和 
26 个 整数 (对 应 的 26 个 英文 字母 ) 组 成 的 空间 。 对 于 任意 大 小 &E 开 ,可 以 得 到 加 密 过 程 
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表 2-1 凯撒 密码 明文 密 文 对 照 表 
明文 a b € d e f g h i j k 1 m 
对 应 数字 0 2 3 4 5 6 7 8 9 10 | 11 | 12 
Ex D E F G | H I J K LI|MINI|O P 
明文 n o p q r E t u v w x y z 
对 应 数字 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 
密 文 Q R S T U v w X Y 2 A B E 
如 下 : 

Ei(p)= p+k(mod 26) =c € C (2-1) 
其 中 ,p 为 明文 ,c 为 密 文 ,k 为 密 钥 。 

解密 过 程 如 下 : 
Di(c)=c—k(mod26)=pEP (2-2) 


例 2-1 4 k=3 时 , 即 为 凯撒 密码 ,如 表 2-1 所 示 。 
则 车 明文 为 : p=casear cipher is a shift substitution 时 , 密 文 为 : 
c=FEVHDU FLSKHU LV D VKLIW VXEVWL WXWLRQ 
解密 时 只 需要 用 密 钥 & 一 3 的 加 密 密 钥 对 密 文 c 进行 解密 运算 就 可 以 恢复 出 原文 。 
这 种 密码 是 将 明文 字母 表 中 字母 位 置 下 标 与 密 钥 e 进行 模 26 加 法 运算 的 结果 作为 
密 文 字母 位 置 下 标 , 相 应 的 字母 即 为 密 文 字母 。 
2) 乘法 代替 密码 
已 知 : p—c—k-zn k EWE 0- kn 的 正 整 数 ,要 求人 与 2 互 素 。 
加 密 算法 如 下 : 
c = E(k,p) = (pk)(mod n) (2-3) 
解密 算法 如 下 : 
p= Dk,c) = k^! cI|mod n) (2-4) 
注意 : Rk 5n 互 素 原因 是 仅 当 gcd(k,n) 二 1 时 , 才 存在 两 个 整数 工 和 >y 使 得 
Zk 十 yn 二 1, 才 有 xk 三 1 mod nn, 进 而 有 p 三 zc mod n ,明文 和 密 文才 是 一 一 对 应 的 ,密码 
才能 正确 解密 。 
例 2-2 ”英文 字母 表 "一 26,& 一 9。 则 有 乘法 代替 密码 的 明文 字母 对 应 表 , 如 表 2-2 
所 示 。 


表 2-2 乘法 密码 明文 密 文 对 照 表 


明文 a b [3 e f g h i j k 1 m 


d 
Xx A J s B K T C L U D M V 


明文 n o p q € s t u v w x y z 
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对 照 上 表 , 若 明文 为 : p multiplicative cipher, 其 对 应 的 密 文 为 : c— EYVPUFVU- 
SAPUHK SUFLKX。 
3) 仿 射 密码 
乘法 密码 和 加 法 密码 相 结合 便 构 成 仿 射 密码 。 仿 射 密码 是 一 个 线性 变换 。 对 于 p= 
c=k=zn, H K= { (a,b) E zz X zas gedla,26)=1}, 3} FERH k= (Cki ,ks)EK ,加 密 算 
法 如 下 : 
c = E(k, p) = kı p + k: (mod 26) (2-5) 
解密 算法 如 下 : 
p = DG.c) = h^ (c — kz) (mod 26) (2-6) 
式 中 的 一 1 RRA”, RARO k — 1 时 , 仿 射 密码 对 应 为 凯 撤 密码。 仿 射 密码 共有 
26X12—312 个 可 能 的 密 钥 ,其 中 12 是 满足 ged(a.26) —1 的 a 的 个 数 。 
例 2-3 设 k=(ki,ks) 二 (5,3), 可 以 计算 得 到 57!1(mod 260 =21 , (j fi T AY JL PR 
数 为 : c— 5 p--3Gnod 26) ;相应 的 解密 函数 为 : p 21(0— 3) (mod 26)=21c—11(mod 26), 
若 要 加 密 明 文 Cipher, 首 先 转换 字母 C,i,p,h,e,r 成 数字 2,8,15,7,4,17, 然 后 进行 
加 密 : 


2X 48 13 13 N 
8| |3 43 17 R 
15 3 78 0 A 
5x 十 | |= mod 26 一 = 
ji 3 38 12 M 
4 3 23 23 X 
17 3 88 10 K 
即 在 该 密 钥 下 ,Cipher 经 仿 射 加 密 后 得 到 的 密 文 是 NRAMXK。 
解密 : 
13 11 262 e 
17 11 346 I 
0 11 一 11 15 P 
21x 一 一 mod 26 一 一 
12 11 241 H 
23 11 472 E 
10 ti 199 17 R 


可 见 , 原 始 消息 Cipher 已 得 到 恢复 。 

单 表 代替 密码 通常 其 密 钥 空间 很 小 ,无 法 抵抗 穷 举 搜索 攻击 。 此 外 , 它 没有 将 明文 
字母 出 现 的 统计 概率 掩盖 起 来 ,容易 遭受 频率 分 析 攻 击 。 这 里 所 说 的 频率 分 析 攻 击 是 指 
在 某 种 语言 中 ,由 于 不 同 字符 出 现 频率 的 差异 所 呈现 出 来 的 统计 规律 。 


2. 多 表 代替 密码 


隐藏 字母 出 现 的 频率 分 布 并 提高 代替 密码 强度 的 一 种 方法 是 采用 多 个 密 文字 母 表 ， 
使 密 文 中 的 每 一 个 字母 有 多 种 可 能 的 字母 来 代替 ,多 表 代 替 密 码 有 多 个 单字 母 密 钥 ,每 
一 个 密 钥 被 用 来 加 密 一 个 明文 字母 。 第 一 个 密 钥 加 密 明 文 的 第 一 个 字母 ,第 二 个 密 钥 加 
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密 明 文 的 第 二 个 字母 。 在 所 有 的 密 钥 用 完 后 , 密 钥 又 再 循环 使 用 。 
已 知 明文 序列 为 一 户 加 …, 太 一 广 户 … 为 映射 序列 , 则 对 应 的 密 文 为 ; 
C = EG. p = fip) f: p) (2-7) 
若 是非 周 期 的 无 限 序列 , 则 相应 的 密码 称 为 非 周期 多 表 代 换 密码 。 这 类 密码 ,对 
每 个 明文 字母 都 采用 不 同 的 代 换 表 ( 或 密 钥 ) 进 行 加 密 , 称 作 一 次 一 密 密 码 Coner-time pad 
cipher) ,这 是 一 种 理论 上 唯一 不 可 破 的 密码 ,这 种 密码 对 于 明文 的 特点 可 实现 完全 隐 项， 
但 由 于 需要 的 密 钥 量 和 明文 信息 的 长 度 相同 而 限制 其 广泛 使 用 。 
在 多 表 代 换 下 ,原来 明文 中 的 统计 特性 通过 多 个 表 的 平均 作用 而 被 隐蔽 了 起 来 。 多 
表 代 换 密码 的 破译 要 比 单 表 代替 密码 的 破译 难得 多 。 
但 是 多 表 代 换 中 的 平均 结果 会 使 密 文 的 统计 特性 与 明文 的 统计 特性 明显 不 同 , 随 着 
多 表 代 换 周期 的 加 大 ,这 种 差别 也 就 更 加 明显 ,从 此 入 手 就 可 以 破译 多 表 代 换 密码 。 
Vigenère 密码 .Playfair 密码 , 深 动 密 钥 密码 、 弗 纳 姆 密码 以 及 Hill 密码 都 是 这 一 类 
密码 。 
1) Vigenere 密码 
Vigenere 密码 是 最 著名 的 多 表 代 换 密 码 , 是 由 法 国 密码 学 家 Blaise de Vigenere 于 
1568 年 提出 的 一 种 密码 , 它 是 一 种 以 移 位 代 换 为 基础 的 周期 代 换 密码 、 多 表 简 单 加 法 
密码 。 
Vigenere 密码 使 用 一 个 词组 作为 密 钥 ,每 一 个 密 钥 字母 都 对 应 一 个 代替 表 。 第 一 个 
密 钥 字母 用 来 加 密 第 一 个 明文 字母 ,第 二 个 密 钥 字 母 加 密 第 二 个 明文 字母 ,等 所 有 密 钥 
字母 都 使 用 完 后 , 密 钥 又 青 循环 使 用 。 
已 知 明文 p= pi pa p. «m 为 一 个 固定 的 正 整数 ,对 于 一 个 密 钥 & 二 Riko…k。, 则 加 密 
算法 如 下 : 
ey 
=( pı +kı (mod 26) . p; + b; Cmod 26) .*- «p; + ki(mod 26)，…) (2-8) 
解密 算法 如 下 : 
P =D(c,k) 
一 (cl — kı (mod 26) ,cs — k: (mod 26),**,c; — k; (mod 26),*…) (2-9) 
Vigenère 密码 使 用 26 个 密 文字 母 表 , 像 加 法 密码 一 样 ,他 们 是 一 次 将 明文 字母 表 循 
环 右 移 0,1,2,…,25 位 的 结果 。 选 一 个 词组 或 者 短语 作为 密 钥 ,以 密 钥 字母 控制 使 用 哪 
一 个 密 文字 母 表 。 
例 2-4 已 知 明文 p—polyalphabetic cipher, 密 钥 & 王 RADIO, 即 周期 d — 5 . Wt 
。 明文 : p—polyalphabetic cipher; 
* 密 钥 : k=RADIORADIORADI ORADIO; 
* ZX: c=GOOGOCPKIPVTLK QZPKMF; 
其 中 ,同一 明文 字母 P 在 不 同 的 位 置 被 加 密 成 不 同 的 字母 G I P. 
2) Playfair 加 密 算 法 
Playfair 密码 将 明文 中 的 双 字母 组 合作 为 一 个 单元 进行 处 理 ,并 将 每 一 个 单元 转换 
成 双 字母 的 密 文 组 合 。Plairfair 密码 基于 一 个 5X5 矩阵 ,该 矩阵 采用 一 个 关键 词 作为 密 
钥 来 构造 。 构 造 的 方法 为 : 按 从 左 至 右 , 从 上 至 下 的 顺序 依次 首先 填 人 关键 词 中 非 重复 的 
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字母 ,然而 再 将 字母 表 中 剩余 的 字母 按 顺序 填 和 信和 矩阵 (其 中 字母 1 和 J 被 看 作 是 一 个 字母 )。 

对 于 每 一 对 明文 p, 、. ,其 加 密 方法 如 下 : 

O pi 和 户 在 同一 行 时 , 则 密 文 c 和 cs 分 别 是 紧 靠 pi. po 右 端的 字母 。 其 中 第 一 
列 看 作 是 最 后 一 列 的 右 方 。 

© E p, 和 ps 在 同一 列 时 , 则 密 文 c, 和 cs 分 别 是 紧 靠 pip. 下 方 的 字母 。 其 中 第 
一 行 看 作 是 最 后 一 行 的 上 方 。 

© E pi 和 ps 不 在 同一 行 ,也 不 在 同一 列 时 , 则 密 文 c 和 cs 是 由 pi 和 ps 确定 的 矩 
形 的 其 他 两 角 的 字母 ,并 且 c 和 pi .cs 和 ps 同行 。 

CD 车 pi 二 ps;, 则 插入 一 个 字符 (如 Q) 于 重复 字母 之 间 。 

C) 若 明文 字母 为 奇数 时 ,将 空 字母 Q 加 在 明文 的 末端 。 

例 2-5 密 钥 是 : EXAMPLE FOR PLAYFAIR, 则 构造 的 字母 矩阵 如 表 2-3 所 示 。 


如 果 明 文 是 p= 二 chinese student, 先 将 明文 每 两 个 分 表 2-3 字母 矩阵 表 

din E |X|A|M|P 
ch in es es tu de nt 

按照 加 密 规则 ,对 应 的 密 文 为 | Y 

IN CH PH PH UV IM HV V|B|C|Dpj|G 

Playfair 密码 相对 于 单 表 替 换 密码 有 很 大 的 进步 ， H|K|N|Q|S 

主要 体现 在 两 个 方面 : T|U VIwWIz 


(1) 由 于 是 双 字 母 组 合 ,共有 26x 26—676 种 组 合 
的 可 能 ,识别 双 字 母 组 合 要 更 为 困难 。 

(2) 各 个 字母 组 合 的 频率 比 单字 母 呈现 出 大 得 多 的 范围 ,导致 频率 分 析 的 难度 加 大 。 
即便 如 此 ,Playfair 密码 还 是 相对 容易 攻破 ,因为 在 密 文中 仍然 存在 许多 明文 语言 的 结构 
可 被 密码 分 析 者 利用 。 

3) 滚动 密 钥 密码 

对 于 周期 多 表 代 替 密码 ,保密 性 将 随 周期 d 的 加 大 而 增加 , 当 d 的 长 度 和 明文 一 样 
长 时 就 变 成 了 滚动 密 钥 密码 。 如 果 其 中 所 采用 的 密 钥 不 重复 就 是 一 次 一 密 体 制 。 一 般 密 
钥 可 取 一 本 书 或 一 篇 报告 作为 密 钥 源 , 可 由 书 名 ,章节 号 及 标题 来 限定 密 钥 的 起 始 位 置 。 

4) 弗 纳 姆 密码 

当 字母 表 字 母 数 q= 2 时 ,滚动 密 钥 密码 就 变 成 了 弗 纳 姆 密码 。 

选择 随机 二 元 数字 序列 作为 密 钥 , 以 一 kk,…k…(k; EF,) 表 示 , 明 文字 母 编 程 二 
元 向 量 后 也 可 以 表示 为 二 元 序列 m= m m m; On; EF,), 则 加 密 过 程 就 是 将 和 
的 相应 位 逐 位 的 模 2 相 加 , 即 : 


G —mQk. i-12.- (2-10) 
译 码 时 ,用 同样 的 密 钥 对 密 文 逐 位 的 模 2 加 , 便 可 恢复 明文 的 二 元 数字 序列 , 即 : 
m,—cGQkh. i-12»- (2-11) 
这 种 加 密 方式 若 使 用 电子 器 件 实现 就 是 一 种 序列 密码 。 


5) Hill 密码 
Hill 加 密 算法 的 基本 思想 是 将 mm 个 明文 字母 通过 线性 变换 将 它们 转换 为 m 个 密 文 
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字母 。 解 密 只 要 做 一 次 道 变换 就 可 以 了 。 密 钥 就 是 变换 矩阵 本 身 。 假 设 m — 3 9] 
cı = kn pı + kiz p2 + kis P3 
|: = ka pı + kzz p2 + kzz ps (2-12) 
c3 = ka pı + kaz p2 + kss p3 


T Z p] AE REK : 
cı ku k du] 
加 Ñ kzz dM (2-13) 
C3 ka ks k3 JLps 
即 加 密 过 程 为 : 
C= KP mod 26 (2-14) 
其 中 ,C 和 PP 代表 密 文 和 明文 向 量 ,K 是 密 钥 矩 阵 。 
解密 则 为 : 
P—K'C (2-15) 


8i 2-6 Ine co july EAEE: K= 5 ?| Mime came 
ju(9,20) 和 1ly(11,24)。 加 密 算法 如 下 : 
bh dr =E Aa ls 
£y 一 Ca 一 一 
8 7jJl20 4 8 7 站 24 22 
因此 ,加 密 后 的 密 文 为 : DELW 。 
解密 算法 如 下 ( 密 钥 矩阵 的 逆 和 矩阵 ) : 


ja -| 7 J 
18 11 


[7 23][3] [ 9 [7 z3)901]. pii 
D b. nlla- "I Enc k allel a 
因此 ,解密 后 可 得 到 原始 密 文 july。 
6) 一 次 一 密 
一 次 一 密 密 码 是 一 种 较为 理想 的 加 密 方 案 , 由 Major Joseph Mauborgne 和 AT&T 
公司 的 Gilbert Vernam 于 1917 年 发 明 。 一 次 一 密 乱 码 本 是 一 个 大 的 不 重复 的 真 随机 密 
钥 字 母 集 , 这 个 密 钥 字 母 集 被 写 在 几 张 纸 上 ,并 一 起 粘 成 一 个 乱码 本 。 发 方 用 乱码 本 中 
的 每 一 密 钥 字母 准确 地 加 密 一 个 明文 字符 。 加 密 是 明文 字符 和 一 次 一 密 乱 码 本 密 钥 字 
符 的 模 26 加 法 。 
每 个 密 钥 仅 对 一 个 消息 使 用 一 次 。 发 方 对 所 发 的 消息 加 密 , 然 后 销毁 乱码 本 中 用 过 
的 一 页 或 用 过 的 磁带 部 分 。 收 方 有 一 个 同样 的 乱码 本 ,并 依次 使 用 乱码 本 上 的 每 个 密 钥 
去 解密 密 文 的 每 个 字符 。 收 方 在 解密 消息 后 销毁 乱码 本 中 用 过 的 一 页 或 用 过 的 磁带 部 
分 。 新 的 消息 则 用 乱码 本 的 新 的 密 钥 加 密 。 
如 果 偷 窃听 者 不 能 得 到 用 来 加 密 消 息 的 一 次 一 密 乱 码 本 ,这 个 方案 是 完全 保密 的 。 
给 出 的 密 文 消息 相当 于 同样 长 度 的 任何 可 能 的 明文 消息 。 随 机 密 钥 序 列 蜡 或 一 非 随机 
的 明文 消息 产生 一 完全 随机 的 密 文 消息 。 再 强大 的 计算 能 力也 无 能 为 力 。 
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密 钥 字母 必须 是 随机 产生 的 。 对 这 种 方案 的 攻击 将 是 针对 用 来 产生 密 钥 序列 的 那 
种 方法 。 使 用 伪 随 机 数 发 生 器 是 不 值得 考虑 的 ,它们 通常 具有 非 随 机 性 。 如 果 采 用 真 随 
机 源 , 它 就 是 安全 的 。 

另 一 个 重要 的 事情 是 密 钥 序列 不 能 重复 使 用 。 一 次 一 密 乱 码 本 的 想法 很 容易 推广 
到 二 进 制 数据 的 加 密 , 只 需 由 二 进 制 数字 组 成 的 一 次 一 密 乱 码 本 代替 由 字母 组 成 的 一 次 
一 密 乱 码 , 用 异 或 代替 一 次 一 密 乱码 本 的 明文 字符 加 法 就 可 以 了 。 为 了 解密 ,用 同样 的 
一 次 一 密 乱 码 本 对 密 文 异 或 ,其 他 保持 不 变 , 保 密 性 也 很 完善 。 

但 一 次 一 密 乱 码 本 存在 几 个 问题 。 因 为 密 钥 比特 必须 是 随机 的 ,并 且 绝 不 能 重复 使 
用 , 密 钥 序列 的 长 度 要 等 于 消息 的 长 度 。 即 使 解决 了 密 钥 的 分 配 和 存储 问题 ,还 需 确信 
发 方 和 收 方 是 完全 同步 的 。 如 果 收 方 有 一 比特 的 偏 移 (或 者 一 些 比特 在 传送 过 程 中 丢失 
了 ) ,消息 就 变 成 乱 的 了 。 另 一 方面 ,如 果 某 些 比特 在 传送 中 被 改变 了 (没有 增 减 任何 比 
特 ,更 像 由 于 随机 噪声 引起 的 ) ,那些 改变 了 的 比特 就 不 能 正确 地 解密 。 再 者 ,一 次 一 密 
乱码 本 不 提供 鉴别 。 

一 次 一 密 乱 码 本 在 今天 仍 有 应 用 场合 ,主要 用 于 高 度 机 密 的 低 带宽 信道 。 


2.2.2 置换 密码 


把 明文 中 的 字母 重新 排列 ,字母 本 身 不 变 , 但 其 位 置 改变 了 ,这 样 编 成 的 密码 称 为 置 
换 密码 。 最 简单 的 置换 密码 是 把 明文 中 的 字母 顺序 倒 过 来 ,然后 截 成 固定 长 度 的 字母 组 


作为 密 文 。 
例 2-7 明 晨 5 点 发 动 反 攻 。 
HX: 
MING CHEN WU DIAN FA DONG FAN GONG 
密 文 : 


GNOGN AFGNO DAFNA IDUWN EHCN IM 
这 种 技巧 对 密码 分 析 者 来 说 实在 微不足道 。 一 种 更 复杂 的 方案 是 把 消息 一 行 一 行 
地 写成 矩形 块 ,然后 按 列 读 出 ,但 是 把 列 的 次 序 打 乱 , 列 的 次 序 就 是 算法 密 钥 。 
例 2-8 密 钥 : 4321567 


明文 : 
a t t a c k P 
o s t p o n e 
d u n t i 1 t 
w o a m x y z 
密 文 : 


TTNAAPTMTSUOAODWCOIXKNLYPETZ 
单纯 的 置换 密码 因为 有 着 与 原文 相同 的 字母 频率 而 被 识破 ,如 同 列 变换 所 示 , 密 码 
分 析 可 以 直接 将 密 文 排列 成 矩阵 人 手 , 再 来 处 理 列 的 位 置 。 双 字母 音节 和 三 字母 音节 可 
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以 派 上 用 场 。 
多 步 置 换 密码 相对 来 说 安全 得 多 。 这 种 复杂 的 置换 是 不 容易 构造 出 来 的 。 因 此 ,如 
果 前 面 的 那 条 消息 用 相同 算法 再 加 密 一 次 , 则 密 文 为 
NSCYAUOPTTWLTMDNAOIEPAXTTOKZ 


2.3 对 称 密 钥 密码 技术 


在 很 长 一 段 时 间 内 ,密码 技术 主要 应 用 于 军事 以 及 外 交 等 领域 ,直到 1977 年 ,美国 
国家 标准 局 公布 实施 了 美国 数据 加 密 标 准 (Data Encryption Standard. DES) ,军事 部 门 
垄断 密码 的 局 面 被 打破 ,民间 力量 开始 全 面 介入 密码 学 的 研究 和 应 用 中 。 市 场 上 涌现 出 
大 量 的 民用 加 密 产品 ,常用 的 加 密 算法 有 DES, IDEA, AES 等 。 


2.3.1 基本 概念 


对 称 密 钥 加 密 又 叫 专用 密 钥 加 密 , 即 发 送 和 接收 数据 的 双方 必须 使 用 相同 的 密 钥 对 
明文 进行 加 密 和 解密 和 运算。 对称 密 钥 加 密 算法 主要 包括 DES, 3DES, IDEA, FEAL, 
BLOWFISH 等 。 对 称 密 钥 是 双方 使 用 相同 的 密 钥 ,在 网 络 条 件 下 就 要 求 使 用 一 个 安全 
的 信道 进行 密 钥 的 共享 与 传递 。 

对 称 加 密 的 基本 要 求 包括 : 

CD 需要 强大 的 加 密 算 法 。 算 法 至 少 应 该 满足 : 即使 分 析 人 员 知 道 了 算法 并 能 访问 
一 些 或 者 更 多 的 密 文 ,也 不 能 破译 出 密 文 或 得 出 密 钥 。 通 常 ,这 个 要 求 以 更 强硬 的 形式 
表达 出 来 , 那 就 是 即使 分 析 人 员 拥 有 一 些 密 文 和 生成 密 文 的 明文 ,也 不 能 译 出 密 文 或 者 
发 现 密 钥 , 即 加 密 算 法 应 足以 抵抗 已 知 明文 类 型 的 破译 。 

(2) 发 送 方 和 接收 方 必须 用 安全 的 方式 来 获得 密 钥 的 副本 ,保证 密 钥 的 安全 。 如 果 
有 人 发 现 了 密 钥 ,并 知道 了 算法 , 则 使 用 此 密 钥 的 所 有 通信 便 都 是 可 读 取 的 。 

对 称 密 钥 密码 技术 有 两 种 不 同 的 实现 方式 ,分 别 是 流 密码 技术 与 分 组 密码 技术 。 


2.3.2 流 密码 技术 


流 密 码 的 基本 思想 是 利用 密 钥 产生 一 个 密 钥 流 oes eo …', 并 使 用 如 下 规则 对 明文 
E p= popi po ME: c 0i — E (po)En GO Ei Cp, 8858 i h 589 Ls 
JFE: oz — f Uso) ,这 里 60; 是 加 密 器 中 的 记忆 元 件 (存储 器 ) 在 时 刻 i 的 状态 ,f 是 由 密 
51k filo; 产生 的 函数 。 

流 密码 的 滚动 密 钥 zo = f Cko) HRR f、 密 钥 和 指定 的 初 态 o 完全 确定 。 此 后 ， 
于 输入 加 密 器 的 明文 可 能 影响 加 密 器 中 内 部 记忆 元 件 的 存储 状态 ,因此 o; G7 00 T RE 
依赖 于 bios xo sm ，… ,Xi-1 等 参数 。 

根据 加 密 器 中 记忆 元 件 的 存储 状态 o: 是 否 依赖 于 输入 的 明文 字符 , 流 密码 可 进一步 
分 成 同步 和 自 同步 两 种 。e 独立 于 明文 字符 的 叫做 同步 流 密码 ,否则 叫做 自 同步 流 密 
码 。 由 于 自 同 步 流 密码 的 密 钥 流 的 产生 与 明文 有 关 , 因 而 较 难 从 理论 上 进行 分 析 。 目 前 
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大 多 数 研究 成 果 都 是 关于 同步 流 密码 的 。 在 同步 流 密码 中 ,由 于 Z;— f (Oeo) SALF 
符 无 关 , 因 而 此 时 密 文字 符 y; — Ez, (zi) 也 不 依赖 于 此 前 的 明文 字符 。 因 此 ,可 将 同步 流 
密码 的 加 密 器 分 成 密 钥 流产 生 器 和 加 密 变换 器 两 个 部 分 。 如 果 与 上 述 加 密 变 换 对 应 的 
解密 变换 为 x: = Dz, Cy , 则 可 给 出 同步 流 密码 体制 的 模型 如 图 2-2 所 示 o 
安全 通道 
| WA 
i | 


E fa 


> Ex o LE e Do) 上- 


图 2-2 同步 流 密码 体制 的 模型 


实际 使 用 的 数字 保密 通信 系统 一 般 都 是 二 元 系统 ,因而 在 有 限 域 GF(2) 上 讨论 的 二 
元 加 法 流 密码 是 目前 最 为 常用 的 流 密 码 体制 ,其 加 密 变 换 可 表示 为 % 一 二 四 mi。 实际 使 
用 中 ,密码 设计 者 的 最 大 愿望 是 设计 出 一 个 滚动 密 钥 生成 器 ,使 得 密 钥 经 其 扩展 成 的 密 
钥 流 序列 具有 如 下 性 质 : 极 大 的 周期 .良好 的 统计 特性 、 抗 线性 分 析 、 抗 统计 分 析 。 

下 面 将 详细 介绍 两 种 流 密码 算法 : A5/1 和 RC4。 这 两 种 算法 在 当今 被 广泛 应 用 。 
A5/1 在 GSM 移动 通信 中 使 用 ,A5/1 算法 是 基于 硬件 实现 的 流 密码 的 代表 。RC4 算法 
在 安全 套 接 字 SSL 协议 等 许多 地 方 有 广泛 的 使 用 。RC4 是 一 种 特殊 的 流 密码 ,其 软件 实 
现 效率 非常 高 。 


1. AS/1 


A5/1 算法 主要 应 用 在 GSM 移动 通信 中 用 于 保护 数据 。 该 算法 可 以 通过 代数 描述 ， 
也 可 任意 使 用 简单 的 流程 图 来 描述 。 这 里 同时 给 出 这 两 种 描述 。 

A5/1 (EH XYZ 三 个 线性 移 位 寄存 器 LFSR。 寄 存 器 X 包括 19 位 ,编号 为 (zo， 
zi,zls)。 寄 存 器 了 包括 22 位 ,编号 为 (yo vict ,yam)。 寄 存 器 Z 包括 23 位 ,编号 为 
Corzi st sz22)。 三 个 LFSR 总 共 包 括 64 比特 。 

密 钥 K 同样 是 64 位 ,用 于 初始 化 三 个 寄存 器 。 用 密 钥 填充 三 个 寄存 器 后 ,就 完成 了 
密码 流 生成 前 的 准备 。 在 描述 密码 流 之 前 ,首先 介绍 三 个 寄存 器 的 详细 结构 。 

对 于 寄存 器 X ,每 步 进行 如 下 操作 : 

t= xa e X16 Qu Qus 
Xx; Zias i= 18.17.16.:77.1 (2-16) 
To =t 
类 似 地 ,对 于 寄存 器 Y 和 Z, 每 步 分 别 进行 如 下 操作 : 
t = ys ® yn 
Yi = yias i= 21.20,19,--.1 
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yo —t (2-17) 


t = z; (D zs ® za ® zz 
zi = zs, i= 22,21,20,:-,.1 (2-18) 
my =t 
给 定 三 个 比特 ry ENX maj(z,y,z) 为 “多 数 投票 ”函数 : 即 如 果 m yz 中 的 多 数 
为 0, 则 函数 返回 0, 和 否则 返回 1 。 
A5/1 使 用 硬件 实现 的 ,每 个 时 钟 周期 作 如 下 计算 : 
m = maj( £s s Yio ,X10) (2-19) 
于 是 寄存 器 X.Y、Z 依照 如 下 规则 进行 处 理 : 
CD 如 果 rs =m, IBARET X 操作 。 
(2) 如 果 yo =m, HARIT Y 操作 。 
(3) 如 果 zo =m, IRA REIT Z 操作 。 
最 后 , 密 钥 流 比特 * 按照 如 下 关系 产生 : 
s = nu O yn ® zz (2-20) 
为 了 生成 一 个 比特 的 密 钥 流 的 过 程 看 似 复杂 ,但 是 A5/1 的 硬件 实现 非常 简单 ,比特 
产生 的 速度 与 时 钟 速度 相当 。 并 且 从 一 个 64 位 的 密 钥 可 以 产生 无 穷 多 的 密 钥 流 ,尽管 
最 终 密 钥 流 将 出 现 循环 。A5/1 算法 可 以 使 用 简单 的 “电码 ”表示 ,如 图 2-3 所 示 。 


X T2 [s [4 [s [e] [s [ Do[u [ro [ [1 [5 [ve [ v [s 


1 | 2 [Ts e Ts] Do[u Ti [Tis is Tis o [or]- 7 5 


10|11|12/13|14|15 [16 |17|18|19|20|21|22 


" 
m 
m 
" 
^ 
m 
æ 
|| 


—i o| = 2 |m e 
© 
t 


图 2-3 A5/1 密 钥 流 生成 


2. RC4 


RC4 也 是 一 种 流 密码 ,但 是 它 与 A5/1 有 很 大 的 不 同 。RC4 算法 专门 为 软件 实现 优 
化 ,而 A5/1 则 是 根据 硬件 实现 设计 ;RC4 每 步 产生 一 个 密 钥 字 节 ,而 A5/1 每 步 仅 产生 
一 个 密 钥 流 比特 。 

RC4 算法 非常 简单 ,因为 从 本 质 上 来 讲 它 就 是 一 个 包含 256 字 节 的 置换 查 表 在 产生 
密 钥 流 的 每 一 个 字 节 时 ,所 查 的 表 就 进行 一 次 修改 , 表 始 终 都 包含 {0,1,2,…,255) 的 
置换 。 

整个 RC4 算法 都 是 基于 字 节 的 。 算 法 的 第 一 阶段 是 对 于 查 表 使 用 的 密 钥 进行 初始 
化 ,用 keyLi GR 859] ,这 里 i 一 1,2,… ,NN 一 1, 每 个 keyLi H&— 568 pit usi] 3x Hi. 
每 个 sLi]t.d&— 565. RC 的 一 个 特点 是 , 密 钥 长 度 可 以 是 0 一 256 字 节 。 密 钥 只 在 
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初始 化 置换 S 中 使 用 。 
置换 S 的 初始 化 过 程 的 伪 码 如 下 : 


for i=0 to 255 
s[i]=i 
k[i]- key[i mod N] 
Next i 
j=0 
for i=0 to 255 
j= (j+ s[i]+k[i]) md 256 
swap(s[i],s[j]) 
next i 
i=j=0 
初始 化 阶段 完成 后 ,通过 下 列 代码 中 的 算法 产生 每 个 密 钥 流 字 节 。 可 以 用 
keystreamByte 表示 输出 ,在 加 密 时 与 明文 做 XOR 运算 ,解密 时 与 密 文 做 XOR 运算 。 
RC4 算法 的 输出 同时 也 可 为 需要 “密码 学 ” 伪 随 机 数 的 应 用 作为 伪 随 机 数 生成 器 使 用 。 
RC4 密 钥 流 字 节 如 下 : 


i= (i+ 1) mod 256 

j= (j+ s[i]) mod 256 
swap(sti], sl) 

t= (s[i]* s[3]) mod 256 
keystreanByte- s [t] 


RC4 算法 可 以 被 视 为 自修 改 的 查找 表 , 它 非常 简单 ,并且 软件 实现 效率 很 高 。 然 而 
对 于 RC4 存在 可 行 的 攻击 方法 ,但 是 只 要 在 使 用 时 丢弃 生成 前 256 字 节 密 钥 流 , 该 攻击 
就 不 可 行 。 这 可 以 通过 在 初始 化 过 程 中 额外 添加 256 步 来 完成 ,每 一 步 产生 RC4 密码 流 
字 节 中 被 丢弃 的 密 钥 流 字 节 。 

RC4 可 以 在 包括 SSL 在 内 的 很 多 应 用 中 使 用 。 然 而 该 算法 比较 过 时 ,没有 针对 32 
位 处 理 器 进行 优化 。 


2.3.3 分 组 密码 技术 


分 组 密码 是 对 称 密码 的 典型 代表 。 即 数据 在 密 钥 的 作用 下 一 组 一 组 地 被 处 理 , 并 且 
明文 和 密 文 的 长 度 通 常 是 相等 的 ,一 次 对 一 个 明文 分 组 (如 DES 为 64 位 ) 进 行 加 密 ,而 且 
每 次 的 加 密 密 钥 都 相同 ,分 组 加 密 的 一 般 结 构 如 图 2-4 所 示 。 

当 密 钥 给 定时 ,对 于 每 一 个 明文 分 组 ,都 有 唯一 的 一 个 密 文 分 组 与 之 对 应 。 因 此 可 
以 想象 有 一 个 非常 大 的 电码 本 ,对 每 一 个 可 能 的 明文 分 组 ,在 电码 本 中 都 有 唯一 与 之 对 
应 的 密 文 分 组 。 对 于 大 于 分 组 长 度 的 报 文 , 需 将 其 分 为 若干 特定 长 度 的 分 组 ,最 后 一 个 
分 组 可 能 需要 填充 。 解 密 过 程 也 是 一 次 对 一 个 密 文 分 组 进行 解密 。 而且 每 次 解密 都 使 
用 同一 个 密 钥 。 

分 组 密码 用 于 短 数据 (如 加 密 密 钥 ) 加 密 时 效果 非常 理想 ,但 如 果 同 一 明文 分 组 在 消 
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明文 zu 
1 1 i n 1 
初始 置换 IP(ko, x) 
1 1 
HRBU, x) : 
1 1 1 : 密 
H : : E 1H 
i 1 " L 
FERRU (kn x) 算 
和 法 
末 置 换 FP(k,1, x) m 
i 
[23 


图 2-4 分 组 加 密 的 一 般 结构 


息 中 反复 出 现 , 产 生 的 密 文 分 组 就 会 相同 ,不 仅 容易 被 攻击 者 抓 住 规律 猜测 攻击 ,而 且 在 
时 间 上 也 大 大 重复 了 相同 的 工作 。 因 此 ,用 于 长 消息 加 密 时 可 能 不 够 安全 。 

如 图 2-5 所 示 ,给 定 加 密 消息 的 长 度 是 随机 的 , 按 特定 长 度 ( 如 64 位 ) 分 组 时 ,最 后 一 
组 消息 长 度 可 能 不 足 64 位 。 可 以 填充 一 些 数 字 , 通 常用 最 后 1 字 节 作为 填充 指示 符 
(PD 。 它 所 表示 的 十 进 制 数 字 就 是 填充 占有 的 字 节 数 。 数 据 尾 部 、 填 充 字 符 和 填充 指示 
符 一 起 作为 一 组 进行 加 密 。 


ES 


E NENECHENNET 


后 一 个 分 组 (64 们 
P 最 后 一 个 分 组 (64 位 ) | 


图 2-5 分 组 密码 的 消息 填充 


1. 数据 加 密 算法 标准 


1973 年 ,美国 国家 标准 局 (National Bureau of Standards, NBS) 开 始 征 集 一 种 标准 的 
数据 加 密 标 准 算 法 (DES) ,以 用 于 非 机 密 性 政府 机 构 、 商 业 部 门 和 民间 的 对 非 机 密 的 敏 
感 数据 进行 加 密 。IBM 公司 在 1971 年 完成 的 LUCIFER 密码 (64 比特 分 组 ,128 比特 密 
钥 ) 的 基础 上 ,改进 后 成 为 建议 的 DES。1975 年 3 月 17 日 ,NBS 公布 了 这 个 算法 ,并 说 
明 要 以 它 作 为 联邦 信息 处 理 标 准 , 征 求 各 方 意见 。1977 年 1 月 15 日 ,建议 被 批准 为 联邦 
标准 一 一 FIPSPUB 46 ,并 设计 推出 了 DES 芯片 。1981 年 ,ANSI 将 DES 作为 标准 , 即 
DEALANSI X3. 92]. 1983 年 ,ISO 采用 DES 作为 标准 , 即 DEA-1。DES 是 一 个 优秀 的 
对 称 分 组 密码 算法 ,直到 2000 年 10 月 2 日 NIST 宣 布 AES 算法 前 ,其 一 直 是 业界 的 标准 。 

DES 是 一 种 分 组 乘积 密码 ,包括 16 轮 迭 代 。 明 密 文 分 组 长 度 为 64 位 , 密 钥 总 长 为 
64 位 ,有 效 长 度 56 位 ,其 中 第 8,16,…,64 位 共 8 位 是 奇偶 校 验 位 。DES 是 一 种 对 称 运 
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算 , 除 子 密 钥 使 用 顺序 逆序 外 ,加 密 和 解密 算法 相同 。DES 是 一 种 面向 二 进 制 的 密码 算 
法 ,能够 加 解密 任何 形式 的 计算 机 数据 。 


DES 的 加 密 算法 流程 如 图 26 所 示 , 主 要 包 MADE 
括 三 大 步 又: IP 变 换 
CD 初始 置换 IP. 把 输入 的 64 位 数据 块 的 (me 
排列 顺序 打 乱 ,每 位 数据 按照 下 面 换 位 规则 重新 Lo Ro x 
HE. IPO bob, bsi) = Das bso tb, 即将 输入 的 m 
第 58 位 换 到 输出 的 第 1 位 ,将 输入 的 第 50 位 换 
到 输出 的 第 2 位 …… 输 入 的 第 7 位 换 到 输出 的 第 
64 位 ,将 变换 后 的 数据 平分 成 各 32 位 的 左右 两 部 Li=Ro RLAR K)| 人 
分 , 左 部 分 记 为 Lo , 右 部 分 记 为 R ,如 表 2-4 所 示 。 mee 
(2) 16 轮 的 轮 变换 : 首先 密 钥 扩展 算法 将 
64 位 的 输入 密 钥 ( 称 为 主 密 钥 master key) 扩 展 
为 加 解密 各 轮 所 需 的 轮子 密 钥 (sub key), DES LR RL OR K) 


共 需 要 16 个 轮子 密 钥 , 每 个 轮子 密 钥 有 48 位 。 
对 R 实行 在 轮子 密 钥 & (轮子 密 钥 由 密 钥 扩展 
算法 产生 ) 控 制 下 的 变换 f ,结果 记 为 fR ski), i 

再 与 Lo 做 按 位 异 或 运算 ,其 结果 记 为 RR, W Lis-Ry Rys7Lj €, Kis) 


Ki 
直接 作为 下 一 轮 的 志 , ,如 此 循环 16 轮 , 得 到 预 输 
出 结果 Ris 、Lis。 1 


L, = Re EEE E A T RSL u AR, Ks) LieRis 
R, = L4 Q f (Re Kp) 


un 
M | 
\ 1 
id 


(2-21) TIP-' 变 换 
了 函数 是 多 个 置换 函数 和 替代 函数 的 组 合 


函数 , 它 将 32 位 比特 的 输入 变换 为 32 位 的 输 TAE 
出 。 如 表 2-5 所 示 32 位 的 R 经 过 扩展 变换 图 2-6 DES 加 密 算法 流程 图 
E(Expend) 后 ,扩展 为 48 位 的 ECRO ,然后 与 48 位 的 轮子 密 钥 K 进行 按 位 异 或 。E(R) 二 


Ei bbs tbs) — bis bs bi ,输出 的 第 1 位 为 输入 的 第 32 位 ,输入 的 第 2 位 为 输入 的 第 1 位 ， 
输入 的 第 48 位 为 输入 的 第 1 位 ,如 表 2-5 所 示 。E 的 主要 作用 是 增加 算法 的 扩散 效果 。 
表 2-4 PEK 表 2-5 了 的 置换 


58 50 42 34 26 18 10 32 1 2 3 4 5 
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64 56 48 40 32 24 16 12 13 14 15 16 17 


57 49 41 33 25 17 9 16 17 18 19 20 21 


59 51 43 35 27 19 11 20 21 22 23 24 25 


61 53 45 37 29 21 13 24 25 26 27 28 29 
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63 55 AT 39 31 23 15 28 29 30 31 32 4 
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(3) 道 初始 置换 IPC. 逆 初 始 置换 IP :是 初始 置换 IP 的 逆 置 换 , 它 将 由 Lis 、Ris 合 
并 的 64 位 数据 作为 输入 ,进行 换 位 后 得 到 64 位 的 密 文 输出 。IP 一 (总 003 bu) 一 
Dao bs *** bos ,即将 输入 的 第 40 位 换 到 输出 的 第 1 位 ,将 输入 的 第 8 位 换 到 输出 的 第 2 位 …… 
输入 的 第 25 位 换 到 输出 的 第 64 位 ,如 表 2-6 所 示 。 


表 2-6 IP" 
40 8 48 16 56 24 64 32 
39 7 47 15 55 23 63 31 
37 6 46 14 54 22 62 30 
36 5 45 13 53 21 61 29 
35 4 44 12 52 20 60 28 
34 3 43 1 51 19 59 27 
33 2 42 10 50 18 58 26 
32 1 41 9 49 17 57 25 


2. 高 级 加 密 标 准 (AES) 


从 各 方面 来 看 ,DES 已 走 到 了 它 生 命 的 尽头 。 因 为 其 56 比特 密 钥 实在 太 小 ,虽然 三 
E DES 可 以 解决 密 钥 长 度 的 问题 ,但 是 DES 的 设计 主要 针对 硬件 实现 ,而 在 当今 许多 领 
域 ,需要 用 软件 方法 来 实现 。 在 这 种 情况 下 , 它 的 效率 相对 较 低 。 鉴 于 此 ,1997 年 4 H 
15 日 美国 国家 标准 和 技术 研究 所 (NIST) 发 起 征集 高 级 加 密 标准 (Advanced Encryption 
Standard. AES) 算 法 的 活动 ,并 成 立 了 AES 工作 组 。 目 的 是 为 了 确定 一 个 非 保密 的 、 公 
开 披 露 的 全 球 免费 使 用 的 加 密 算 法 ,用 于 保护 下 一 世纪 政府 的 敏感 信息 。 也 希望 能 够 成 
为 保密 和 非 保 密 部 门 公用 的 加 密 算法 。 

AES 是 Rijndael 算法 的 一 个 子 集 , 已 经 由 NIST 通过 FIPS-197 标准 化 了 。AES 算 
法 是 128 位 块 密码 ,支持 三 种 不 同 大 小 的 密 钥 : 128.192 和 256 位 。 最 大 优点 是 可 以 给 
出 算法 的 最 佳 差分 特征 的 概率 及 最 佳 线 性 台 近 的 偏差 的 界 , 由 此 ,可 以 分 析 算 法 抵抗 差 
分 密码 分 析 及 线性 密码 分 析 的 能 力 。 

AES 密码 算法 采用 的 是 代替 -置换 网 络 (Substitution-Permutation Network, SPN) 
结构 ,每 一 轮 操作 由 4 层 组 成 : 第 1 层 ( 字 节 替换 ) 为 非 线性 层 , 用 S 盒 对 每 一 轮 中 的 单个 
字 节 分 别 进行 替换 ;第 2 层 ( 行 移 位 ) 和 第 3 层 ( 列 混合 ) 是 线性 混合 层 , 对 当前 的 状态 按 
行 移 位 、 按 列 混合 ;第 4 层 ( 密 钥 加 层 ) 用 子 密 钥 与 当前 状态 进行 字 节 上 的 异 或 ,AES 的 具 
体 算法 结构 如 图 2-7 所 示 。 

图 2-7(a) 给 出 了 算法 的 整体 结构 ,输入 明文 P 与 子 密 钥 K。 异 或 ,然后 经 过 R 轮 迭 
代 最 终生 成 密 文 C, 其 中 第 1 到 第 R 一 1 轮 迭 代 结 构 如 图 2-7(b) 所 示 ,第 尺 轮 与 前 面 各 轮 
稍微 有 点 不 同 , 缺 少 混合 层 。 

其 中 ,加 密 轮 数 与 密 钥 长 度 的 关系 如 表 2-7 所 示 。 
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明文 P 行 移 位 


— NER PNE 
子 密 钥 An 列 混合 
E 


[TT K, 
! 


XC Pa 


(a) AES 算 法 框图 (b) 一 轮 AES 结 
图 2-7 AES 算法 结构 图 


表 2-7 AES 参数 
密 钥 长 度 /bit 128 192 256 
明文 分 组 长 度 /bit 128 128 128 
轮 数 10 12 14 
每 轮 密 钥 长 度 /bit 128 128 128 
扩展 密 钥 长 度 /B 176 206 240 


D 字 节 替换 (SubBytes) 

AES 定义 了 一 个 S 盒 ,State 中 每 个 字 节 按照 如 下 方式 映射 为 一 个 新 的 字 节 : 把 该 
字 节 的 高 4 位 作为 行 值 , 低 4 位 作为 列 值 ,然后 取出 S 盒 中 对 应 行 和 列 的 元 素 作为 输出 。 
例如 ,十 六 进 制 数 {84)}。 对 应 S 盒 的 行 是 8, 列 是 4,S 盒 中 该 位 置 对 应 的 值 是 {5F) 。 

S 盒 是 一 个 由 16X16 字 节 组 成 的 矩阵 ,包含 了 8 位 值 所 能 表达 的 256 种 可 能 的 变 
换 。S 盒 按照 以 下 方式 构造 : 

C 逐 行 按照 升序 排列 的 字 节 值 初始 化 S 盒 。 第 一 行 是 {00) ,101} .102},…,{OF)}; 
第 二 行 是 {10} , {11),…,{1F} 等 。 在 行 X 和 列 Y 的 字 节 值 是 {zy} 。 

Q 把 S 盒 中 的 每 个 字 节 映射 为 它 在 有 限 域 GF(2*) 中 的 逆 。GF (XP BG GEO 


组 从 0x00 到 0xff 的 256 个 值 组 成 ,加 上 加 法 和 乘法 。GF(28) 一 ZLX] 


{00} 被 映射 为 它 自身 {00)。 
@ 把 S 盒 中 的 每 个 字 节 记 成 (ps sbr sbs ,bs sbi bibi sbi sbo). X S APENE 09 
位 做 如 下 变换 : 
b= b; © bermas © borsmoas C) Dacosos CO birnaoas CD c; 
上 式 中 c; 是 指 值 为 {63} 字 节 C 第 i 位 , 即 (cscrcscscicsczcico ) 一 (01100011)。 符 
号 () 表 示 更 新 后 的 变量 的 值 。AES 用 以 下 的 矩阵 方式 描述 了 这 个 变换 : 
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bo 10001 1 1 S a E 1 
b, 110001 1 ije |1 
bz 1 I1 0 00 1 illal |o 
bs 1111000 I1|[5|. |0 
ml [3 a 3 1 3 9 0 olal lo 
bs 9 2.1 2 i P € | 1 
bs 00 11 1 1 1 O||5 1 
b; 000 1 1 1 1 llla 0 


2) 行 位 移 变换 (ShiftRows) 
State 的 第 一 行 字 节 保持 不 变 ,State 的 第 二 行 字 节 循环 左 移 一 个 字 节 ,State 的 第 三 
行 字 节 循环 左 移 两 个 字 节 ,State 的 第 四 行 循环 左 移 三 个 字 节 。 变 化 如 图 2-8 所 示 。 


14 | 0 | Sd | ab 14 | 0 | Sd | ab 
78 | 10 | CL | fü ShifRows 交 换 | | 10 | CI | @ | 78 
31| 9 | n [af u |3f|3 |o 
28 | ob | 2a | 45 45 | 28 | ob | 2a 


图 2-8 ShiftRows 变换 


3) 列 混合 变换 (MixColumns) 

列 混合 变换 是 一 个 替代 操作 ,是 AES 最 具 技巧 性 的 部 分 。 它 只 在 AES 的 第 0， 
1,…,R 一 1 轮 中 使 用 ,在 第 R 轮 中 不 使 用 该 变换 。 乘 积 矩 阵 中 的 每 个 元 素 都 是 一 行 和 一 
列 对 应 元 素 的 乘积 之 和 。 在 MixColumns 变换 中 ,乘法 和 加 法 都 是 定义 在 GF(2*) 上 的 。 
State lil fij — 31] (5, )i—0. 7 .3:j —0. n Lo 被 理解 为 GF(2) 上 的 多 项 式 , 该 多 项 式 与 常 
数 多 项 式 ao = 二 a3z’ 十 asx? 十 a1x 十 ao 相 乘 并 模 MGCz) 王 z4 十 1 约 化 。 

这 个 运算 需要 做 GF(2*) 上 的 乘法 。 但 由 于 所 乘 的 因子 是 三 个 固定 的 元 素 02、03、 
01, 所 以 这 些 乘法 运算 仍然 是 比较 简单 的 (注意 ,乘法 运算 所 使 用 的 模 多 项 式 为 m Go — 
如 十 ZT 十 如 十 I 十 1)。 设 一 个 字 节 为 6 二 (bibsbsb4630201bo), 则 

bX*0l'—b; 

b X *02? — bbb, bbb b,0s 

b X *03! —bX *01 -bX ’02’, 

注意 : 加 法 为 取 模 2 的 加 法 , 即 逐 比特 异 或 。 

写成 矩阵 形式 为 ; 

bo 02 03 01 01]|4o 
bi 01 02 03 Olla 
b; 01 01 02 O3||a 
bs 03 01 01 02j|la; 
4) 轮 密 钥 加 变换 (Add RoundKey) 
轮 密 钥 加 变换 是 128 位 的 State 按 位 与 128 位 的 密 钥 进行 XOR 操作 : Cbo sby bo; 
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bj ) 7 (boj «bij » bz; bij YD Geo; skij skaj skaj) XE j 0. R— 1. 46 98 03 2E DIR fE, A 
响 了 State 中 的 每 一 位 。 密 钥 扩 展 的 复杂 性 和 AES 的 其 他 阶段 运算 的 复杂 性 确保 了 该 
算法 的 安全 性 。 

5) 密 钥 扩展 (Key Expansion) 

为 了 防止 已 有 的 密码 分 析 攻 击 ,AES 使 用 了 与 轮 相关 的 轮 常量 (Rcon[j] 是 一 个 字 ， 
这 个 字 的 右边 三 个 字 节 总 为 0) 防 止 不 同 轮 中 产生 的 轮 密 钥 的 对 称 性 或 相似 性 。AES 在 
加 密 和 解密 算法 使 用 了 一 个 由 种 子 密 钥 字 节 数组 生成 的 密 钥 调度 表 ,AES 规范 中 称 之 为 
密 钥 扩展 。 密 钥 扩 展 过 程 从 一 个 原始 密 钥 中 生成 多 重 密 钥 以 代替 使 用 单个 密 钥 大 大 增 
加 了 比特 位 的 扩散 ,在 AES 密 钥 扩展 算法 的 输入 值 是 4 字 密 钥 , 输 出 是 一 个 44 字 的 一 维 
线性 数组 。 这 足以 为 初始 轮 密 钥 扩展 过 程 阶段 和 算法 中 的 其 他 10 轮 中 的 每 一 轮 提 供 
16 字 节 的 轮 密 钥 。 

通过 生成 器 产生 N, 十 1 轮 密 钥 ,每 个 轮 密 钥 由 Ne 个 字 组 成 ,共有 NON DRE 
W[i]G-0.1.*. NoCN 十 1) 一 1)。 

在 加 密 过 程 中 ,需要 N, 十 1 个 子 密 钥 ,需要 构造 4(N, 十 1) 个 32 位 字 。Rijndael 的 密 
钥 扩 展 方案 的 伪 码 描述 如 下 : 


KeyExpansion (byte key[4* Nk],word w[Nb* (Nr+ 1)],Nk) 
{ /hk 代表 以 32 位 字 为 单位 的 密 钥 的 长 度 , 即 Ne 密 钥 长 度 /32 
begin 
i=0 
while (I< Nk) 
w[i]-word[key[4* i],key[4* i*1],key[4* i+ 2],key[4* i+ 3]] 
i=i+1 
end while 
i-Nk 
while(i«No* (Nr+ 1)) 
word temp- w[i- 1] 
if (I mod Nk- 0) 
temp- SubWord (RotWord (temp) ) xor Roon[i/Nk] 
else if (Nk-8 and I mod Nk- 4) 
temp- Subiord (temp) 
end if 
w[i]-w[i- Nk] xor temp 


i=i+1 
end while 
end 

} 


其 中 ,key[] 和 wEOJA SA FERED RNI D REJA WEH. SubWordO , RotWord O 41 Jil 
是 与 S 盒 的 置换 和 以 字 节 为 单位 的 循环 移 位 。Rcon[i 订 一 (RC[L 订 ,00',00',00),RC[0]=' 
OI, RC[i]72* (CRC[i— 1 D G2 D, fij 10 个 轮 常 数 RC[ 订 的 值 ( 用 十 六 进 制 表示 ) 如 
x 2-8 所 示 , 其 对 应 的 Reon[ 订 如 表 2-9 所 示 。 
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32-8 前 10 个 轮 常数 RCHA 


表 2-9 对 应 的 Rcon[i]89f& 


1 1 2 3 4 5 
Rcon[i] 01000000 02000000 04000000 08000000 10000000 
1 6 7 8 9 10 
Reon( i] 20000000 40000000 80000000 1b000000 36000000 
输入 密 钥 直 接 被 复制 到 扩展 密 钥 数组 的 前 四 个 字 中 ,得 到 ww[0] e 1] 2] we [3]; 


然后 每 次 用 四 个 字 填 充 扩展 密 钥 数组 余下 的 部 分 。 在 扩展 密 钥 数组 中 ,ze[ 庄 的 值 依赖 于 
wLi—1]fl w[;i-4]G24. 

对 ww 数组 中 下 标 不 为 4 的 倍数 的 元 素 , 只 是 简单 地 异 或 ,其 逻辑 关系 为 : w[i]— 
w[i—1]GwLi—4]G A29 4 的 倍数 )。 

对 w 数 组 中 下 标 为 4 的 倍数 的 元 素 , 采 用 如 下 方法 计算 : 

CD 将 一 个 字 的 四 个 字 节 循环 左 移 一 个 字 节 ,即将 字 [bo «s ,bs bs ZEH [b ,bs ,bs sbo]; 

@ 基于 S 盒 对 输入 字 中 的 每 个 字 节 进行 S 代替 : 

O 将 步骤 四 的 结果 再 与 轮 常 量 Reon i HRR. 

@ 将 步骤 加 的 结果 与 w[i 一 4 异 或 。 


2.3.4 对 称 密 钥 密码 的 分 析 方法 


密码 编码 学 和 密码 分 析 学 既 对 立 又 统一 , 正 是 由 于 它们 的 对 立 性 才 促进 了 密码 学 的 
发 展 。 密 码 分 析 学 是 在 不 知道 密 钥 的 情况 下 ,恢复 出 密 文 中 明文 信息 的 方法 。 根 据 密码 
分 析 者 对 明文 、 密 文 等 信息 掌握 的 多 少 ,可 以 将 密码 分 析 分 为 以 下 五 种 情形 。 

(1) 唯 密 文 攻击 : 对 于 这 种 形式 的 密码 分 析 , 分 析 者 只 知道 加 密 算法 和 待 破译 的 
密 文 。 

(2) 已 知 明文 攻击 : 破译 者 已 知 的 内 容 包 括 加 密 算 法 和 经 密 钥 加 密 形 成 的 一 个 或 多 
个 明文 - 密 文 对 。 

(3) 选择 明文 攻击 : 破译 者 除了 知道 加 密 算 法 外 ,还 可 以 选 定 明文 消息 ,并 可 以 知道 
对 应 的 密 文 。 

(4) 选择 密 文 攻击 : 破译 者 除了 知道 加 密 算法 外 ,还 包括 自己 选 定 的 密 文 和 对 应 的 、 
已 解密 的 明文 。 

(5) 选择 文本 攻击 : 破译 者 已 知 的 东西 包括 加 密 算法 、 由 密码 破译 者 选择 的 明文 消 
息 和 它 对 应 的 密 文 ,以 及 由 密码 破译 者 选择 的 猜测 性 明文 和 它 对 应 的 已 破译 的 明文 。 

下 面 介 绍 主要 的 分 析 方 法 。 
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l. 强力 攻击 法 


强力 攻击 可 用 于 任何 分 组 密码 , 且 攻 击 的 复杂 度 仅 依赖 于 分 组 长 度 和 密 钥 长 度 。 严 
格 地 讲 , 攻 击 所 需 的 时 间 复 杂 度 依赖 于 分 组 密码 的 工作 效率 ,其 工作 效率 包括 加 解密 速 
度 、 密 钥 扩 展 速 度 、 存 储 空间 等 。 


2. 差分 密码 分 析 


差分 密码 分 析 是 迄今 为 止 已 知 最 有 效 的 攻击 迭代 密码 的 方法 之 一 , 它 利用 高 概率 特 
征 或 差分 恢复 密 钥 。 其 基本 思想 为 : 通过 分 析 明 文 对 的 差 值 对 密 文 对 的 差 值 的 影响 来 恢 
复 某 些 密 钥 比 特 。 简 单 地 ,随机 选取 具有 固定 差分 的 一 对 明文 ,只 要 它们 符合 特定 的 差 
分 条 件 , 甚 至 可 以 不 必 知 道 它们 的 值 。 然 后 ,按照 不 同 的 概率 ,将 输出 密 文 中 的 差分 分 配 
给 不 同 的 密 钥 。 随 着 对 密 文 对 的 分 析 越 来 越 多 ,将 使 最 可 能 的 一 个 密 钥 显 现 出 来 ,这 样 
就 得 到 了 正确 的 密 钥 。 差 分 密码 分 析 最 初 是 针对 DES 加 密 提 出 的 一 种 攻击 方法 ,可 用 于 
6 轮 以 上 的 DES 加 密 。8 轮 DES 需要 2* 个 选择 明文 ,10 轮 和 14 轮 DES 分 别 需要 2? 和 
2” 个 选择 明文 才能 破解 。 虽 然 差 分 密码 分 析 未 能 破解 16 轮 的 DES 加 密 , 但 用 它 破解 轮 
数 较 低 的 DES 还 是 很 成 功 的 。 例 如 ,在 个 人 计算 机 上 几 分 钟 就 可 以 破解 8 轮 DES。 差 
分 密码 分 析 除 了 用 来 攻击 DES 外 ,也 可 以 被 用 来 攻击 其 他 的 密码 体制 。 


3. 线性 密码 分 析 


线性 密码 分 析 本 质 上 是 一 种 已 知 明文 攻击 法 ,是 对 DES 加 密 方法 进行 破译 的 主要 方 
法 。 这 种 方法 用 2” 个 已 知 明文 可 以 破译 8 轮 DES, 用 2” 个 明文 可 以 破译 16 轮 DES。 在 
某 些 情况 下 ,这 种 方法 可 用 于 唯 密 文 攻击 。 其 基本 思想 是 : 通过 寻找 一 个 给 定 密 码 算法 
的 有 效 的 线性 近似 表达 式 来 破译 密码 系统 。 由 于 每 个 密码 系统 均 为 非 线 性 系统 ,因此 只 
能 寻找 线性 近似 表达 式 。 如 果 分 别 将 明文 的 一 些 位 、 密 文 的 一 些 位 进行 异 或 运算 ,然后 
再 将 这 两 个 结果 进行 异 或 运算 ,这 两 个 结果 的 运算 结果 是 一 个 位 ,这 一 位 与 密 钥 的 一 些 
位 进行 异 或 运算 的 结果 相同 。 这 一 位 就 是 概率 为 已 的 线性 近似 值 , 在 P REF 1/2 前 提 
下 ,就 可 以 使 用 该 偏差 ,用 得 到 的 明文 及 相对 应 的 密 文 便 可 猜测 密 钥 的 位 值 。 得 到 的 明 
文 数据 越 多 ,猜测 密 钥 的 位 置 越 可 靠 。 概 率 已 越 大 ,用 同样 数据 量 分 析 的 成 功率 就 越 高 。 


4. 差分 -线性 密码 分 析 


强力 攻击 、 差 分 密码 分 析 和 线性 密码 分 析 是 三 种 对 DES 主要 的 攻击 方法 。 由 于 差分 
密码 分 析 和 线性 密码 分 析 对 于 16 轮 的 DES 的 分 析 所 需 的 选择 (已 知 ) 明 文 个 数 太 大 ,所 
以 目前 最 有 效 的 攻击 仍然 是 强力 攻击 。 而 差分 一 线性 密码 分 析 就 是 对 差分 密码 分 析 和 
线性 密码 分 析 进 行 改进 ,是 降低 它们 复杂 度 的 众多 改进 之 一 , 它 利用 的 是 差分 密码 分 析 
和 线性 密码 分 析 相 结合 的 技术 。 


5. 插值 攻击 
插值 攻击 仅 对 某 些 密码 算法 有 效 , 即 轮 数 很 少 或 轮 函 数 的 次 数 很 低 的 算法 。 如 果 密 
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文 可 以 表示 成 明文 的 多 项 式 , 则 插值 攻击 根据 具体 条 件 可 以 给 出 等 价 于 加 密 或 解密 算法 
的 一 个 变换 ,或 者 恢复 出 最 后 一 轮 的 子 密 钥 。 该 方法 利用 了 拉 格 朗 日 插值 公式 的 思想 。 
插值 攻击 由 Knudsen 和 Jakobsen 提出 ,如 果 一 个 密码 算法 是 固定 密 钥 的 低 次 多 项 式 函 
数 ,或 项 数 较 少 的 多 项 式 , 其 项 数 可 以 被 估算 出 来 , 则 通过 插值 法 可 以 得 到 其 代数 表达 
式 , 从 而 恢复 出 密 钥 ;在 改进 后 的 插值 攻击 中 ,可 以 精确 地 计算 出 多 项 式 函 数 的 某 些 项 的 
系数 ,在 利用 有 限 域 上 傅 里 叶 变 换 的 基础 上 ,也 可 以 求 出 相应 的 密 钥 。 另 外 ,如 果 密 文 可 
以 作为 两 个 多 项 式 的 商 , 且 可 以 估计 出 来 这 两 个 多 项 式 的 项 数 ,那么 相应 的 密 钥 同样 可 
以 恢复 出 来 。 插 值 攻击 使 用 代数 函数 来 代表 S 盒 ,可 以 用 已 知 明文 攻击 法 取得 此 函数 的 
样本 点 ,再 用 拉 格 朗 日 插值 法 产生 。 这 个 代数 函数 可 能 是 在 有 限 体 上 的 有 理 函数 、 多 项 
式 函 数 或 二 次 函数 。 此 函数 也 可 以 用 选择 明文 攻击 法 取得 样本 点 ,这 样 可 以 简化 所 使 用 
的 代数 函数 ,让 攻击 效率 更 高 。Thoms Jakobsen 又 将 机 率 的 概念 引入 了 插值 攻击 法 , 通 
过 MadhuSudan 演算 法 来 改善 其 对 Reed-Solomon 纠 错 码 的 解 译 能 力 。 如 此 一 来 ,在 明 
文 与 密 文 的 内 容 仅 有 极 少 的 代数 关系 时 插值 攻击 也 有 效 。 


2.4 公 钥 加 密 技术 


2.4.1 基本 概念 


公开 密 钥 算法 的 思想 最 早 是 由 当时 在 美国 斯 坦 福 大 学 的 Diffie 和 Hellman 两 人 在 
1976 年 在 其 论文 New Direction in Cryptography 中 提出 的 。 但 目前 最 流行 的 RSA 算 
法 是 1977 年 由 MIT 教授 Ronald L. Rivest, Adi Shamir 和 Leonard M. Adleman 共同 开 
发 的 ,分 别 取 自 三 名 数学 家 名 字 的 第 一 个 字母 来 构成 的 。 

1976 年 提出 的 公开 密 钥 密 码 体 制 思想 不 同 于 传统 的 对 称 密 钥 密码 体制 , 它 要 求 密 钥 
成 对 出 现 , 一 个 为 加 密 密 钥 (e) , 另 一 个 为 解密 密 钥 (d), 且 不 可 能 从 其 中 一 个 推导 出 另 一 
个 。 自 1976 年 以 来 ,已 经 提出 了 多 种 公开 密 钥 密码 算法 ,其 中 许多 是 不 安全 的 ,一 些 被 
认为 是 安全 的 算法 又 有 许多 是 不 实用 的 ,它们 要 么 是 密 钥 太 大 ,要 么 密 文 扩展 十 分 严重 。 
多 数 密码 算法 的 安全 基础 是 基于 数学 难题 ,这 些 难 题 专家 们 认为 在 短期 内 不 可 能 得 到 解 
决 。 因 为 一 些 问题 (如 因子 分 解 问题 ) 至 今 已 有 数 千年 的 历史 了 。 

公 钥 加 密 算法 也 称 非 对 称 密 钥 算法 ,用 两 个 密 钥 : 一 个 公共 密 钥 和 一 个 专用 密 钥 。 
用 户 要 保障 专用 密 钥 的 安全 ;公共 密 钥 则 可 以 发 布 出 去 。 公 共 密 钥 与 专用 密 钥 是 有 紧密 
关系 的 ,用 公共 密 钥 加 密 的 信息 只 能 用 专用 密 钥 解密 ,反之 亦 然 。 由 于 公 钥 算法 不 需要 
联机 密 钥 服务 器 , 密 钥 分 配 协议 简单 ,所 以 极 大 简化 了 密 钥 管理 。 除 加 密 功 能 外 , 公 钼 系 
统 还 可 以 提供 数字 签名 。 非 对 称 密码 算法 解决 了 对 称 密码 体制 中 密 钥 管理 的 难题 ,并 提 
供 了 对 信息 发 送 人 的 身份 进行 验证 的 手段 ,是 现代 密码 学 最 重要 的 发 明和 进展 。 

单 向 和 陷 门 单 向 函数 的 概念 是 公 钥 密码 学 的 核心 ,可 以 说 公 钥 密码 体制 的 设计 就 是 
陷 门 单 向 函数 的 设计 。 

给 定 任 意 两 个 集合 X 和 Y。 函 数 f: XY 称 为 单 向 的 ,如 果 对 每 一 个 过 属于 X ,很 
容易 计算 出 函数 f(x) 的 值 ,而 对 大 多 数 y 属于 Y, 要 确定 满足 y— jz) 的 工 在 计算 上 比 
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较 困 难 ( 假 设 至 少 有 这 样 一 个 z 存 在 )。 注 意 ,不 能 将 单 向 函数 的 概念 与 数学 意义 上 的 不 
可 道 函数 的 概念 混同 ,因为 单 向 函数 可 能 是 一 个 数学 意义 上 可 道 或 者 一 对 一 的 函数 ,而 
一 个 不 可 逆 函 数 却 不 一 定 是 单 向 函数 。 

目前 ,还 没有 人 能 够 从 理论 上 证 明 单 向 函数 是 存在 的 。 单 向 函数 存在 性 的 证 明 将 意 
味 着 计算 机 科学 中 一 个 最 具 挑 战 性 的 猜想 P= 二 NP, 即 NP 完全 问题 的 解决 ,而 关于 NP 
完全 性 的 理论 却 不 足以 证 明 单 向 函数 的 存在 。 现 实 中 却 存在 几 个 单 向 函数 的 “候选 ”。 
说 他 们 是 “候选 ”, 是 因为 他 们 表现 出 了 单 向 函数 的 性 质 ,但 还 没有 办 法 从 理论 上 证 明 它 
们 一 定 是 单 向 函数 。 

一 个 最 简单 的 .大 家 熟知 的 “候选 ”" 单 向 函数 就 是 整数 相 乘 。 众 所 周知 ,不 管 给 定 
两 个 多 大 的 整数 ,我 们 很 容易 计算 出 它们 的 乘积 ,而 对 于 一 个 300 位 左右 的 十 进 制 整 
数 , 即 使 已 知 它 是 两 个 大 小 差不多 (150 位 左右 的 十 进 制 数 ) 的 素数 之 积 , 用 世界 上 计算 
能 力 最 强 的 计算 机 ,也 没有 办 法 在 一 个 合理 的 时 间 内 分 解 出 构成 这 个 整数 的 两 个 素数 
因子 来 。 这 里 讲 的 “合理 的 时 间 ” 是 指 一 个 可 度量 的 相当 长 的 时 间 , 如 人 类 或 者 地 球 的 
寿命 等 。 

显然 , 单 向 函数 不 能 直接 用 作 密 码 体制 ,因为 如 果 用 单 向 函数 对 明文 进行 加 密 , 即 使 
是 合法 的 接收 者 也 不 能 还 原 出 明文 ,因为 单 向 函数 的 逆 运 算是 困难 的 。 与 密码 体制 关系 
更 为 密切 的 概念 是 陷 门 单 向 函数 。 一 个 函数 f: XY 称 为 是 陷 门 单 向 的 ,如 果 该 函数 及 
其 道 函 数 的 计算 都 存在 有 效 的 算法 ,而 且 可 以 将 计算 f 的 方法 公开 ,即使 由 计算 f 的 完 
整 方法 也 不 能 推导 出 其 逆 运 算 的 有 效 算法 。 其 中 ,使 得 双向 都 能 有 效 计 算 的 秘密 信息 叫 
做 陷 门 (trap door). 

需要 提醒 的 是 ,不 能 顾名思义 地 认为 陷 门 单 向 函数 是 单 向 函数 。 事 实 上 , 陷 门 单 向 
函数 不 是 单 向 函数 , 它 只 是 对 于 那些 不 知道 陷 门 的 人 表现 出 了 单 向 函数 的 特性 。 

提出 公 钥 加 密 的 动机 是 简化 密 钥 分 配 和 管理 ,实现 签名 等 功能 ,是 当前 密码 学 领域 
的 最 大 进步 。 


2.4.2 RSA 公 钥 密码 算法 


RSA 密码 体制 是 目前 为 止 最 为 成 功 的 非 对 称 密码 算法 , 它 的 安全 性 是 建立 在 “大 数 
分 解 和 素性 检测 ”这 个 数论 难题 的 基础 上 ,即将 两 个 大 素数 相 乘 在 计算 上 容易 实现 ,而 将 
该 乘积 分 解 为 两 个 大 素数 因子 的 计算 量 相 当 大 。 虽 然 它 的 安全 性 还 未 能 得 到 理论 证 明 ， 
但 经 过 20 多 年 的 密码 分 析 和 攻击 ,迄今 仍然 被 实践 证 明 是 安全 的 。 

RSA 使 用 两 个 密 钥 ,一 个 公共 密 钥 ,一 个 私有 密 钥 。 如 用 其 中 一 个 加 密 , 则 可 用 另 一 
个 解密 , 密 钥 长 度 在 40 一 2048 位 之 间 可 变 ,加 密 时 也 把 明文 分 成 块 , 块 的 大 小 可 变 , 但 不 
能 超过 密 钥 的 长 度 ,RSA 算法 把 每 一 块 明文 转化 为 与 密 钥 长 度 相同 的 密 文 块 。 密 钥 越 
长 ,加 密 效 果 越 好 ,但 加 密 解 密 的 开销 也 大 .所 以 要 在 安全 与 性 能 之 间 折 衷 考虑 ,一 般 
64 位 是 较 合适 的 。RSA 的 一 个 比较 知名 的 应 用 是 SSL, 在 美国 和 加 拿 大 SSL 用 128 位 
RSA 算法 ,由 于 出 口 限制 ,在 其 他 地 区 (包括 中 国 ) 通 用 的 则 是 40 位 版 本 。 

RSA 算法 研制 的 最 初 理念 与 目标 是 努力 使 互联 网 安全 可 靠 , 旨 在 解决 DES 算法 秘 
密 密 钥 利用 公开 信道 传输 分 发 的 难题 。 而 实际 结果 不 但 很 好 地 解决 了 这 个 难题 ;还 可 利 
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用 RSA 来 完成 对 电文 的 数字 签名 以 对 抗 电 文 的 否认 与 抵赖 ;同时 还 可 以 利用 数字 签名 
较 容易 地 发 现 攻 击 者 对 电文 的 非法 算 改 ,以 保护 数据 信息 的 完整 性 。 

RSA 算法 描述 如 下 : 

CD 密 钥 生成 。 选 择 两 个 互 异 的 大 素数 p 和 qun 是 二 者 的 乘积 , 即 n— pq, 使 G0 — 
(p 一 (gq 一 1),@(n) 为 欧 拉 函 数 。 随 机 选取 正 整 数 。, 使 其 满足 gcd(e,@B(n)) 二 1, 即 e 和 
Bn) 互 质 , 则 将 (n,e) 作 为 公 钥 。 

求 出 正 数 d, 使 其 满足 eXd==1 mod B(n), 则 将 (n,d) 作 为 私 钥 。 

(2) 加 密 算法 。 对 于 明文 M. di C—M* mod n, 得 到 密 文 C。 

G) 解密 算法 。 对 于 密 文 C, 由 M—C* mod nn, 得 到 明文 M。 

如 果 窃 密 者 获得 了 nn、e 和 密 文 C, 为 了 破解 密 文 ,他 必须 计算 出 私 钥 4 ,为 此 需要 先 
分 解 n 为 p 和 g。 为 了 提高 破解 难度 ,达到 更 高 的 安全 性 ,一 般 商 业 应 用 要 求 n 的 长 度 不 
小 于 1024 位 ,更 重要 的 场合 不 小 于 2048 位 。 

RSA 算法 提出 以 后 ,引起 了 许多 密码 分 析 学 家 的 兴趣 ,提出 了 一 些 针 对 于 RSA 的 攻 
击 方法 : 如 对 RSA 的 公共 模 数 攻 击 、 对 RSA 的 低 加 密 指 数 攻 击 、 对 RSA 的 低 解密 指数 
攻击 ;对 RSA 的 选择 密 文 攻击 。 根 据 这 些 成 功 的 攻击 ,Jadith Moore 列 出 了 使 用 RSA 的 
一 些 限制 ; 

(1) 知道 了 对 于 一 个 给 定 模 数 的 一 个 加 /解密 密 钥 指数 对 ,攻击 者 就 能 够 分 解 这 个 
模 数 。 

(2) 知道 了 对 于 一 个 给 定 模 数 的 一 个 加 /解密 密 钥 指数 对 ,使 攻击 者 无 须 分 解 n 就 可 
以 计算 出 别 的 加 /解密 对 。 

G) 在 通信 和 网络 中 ,利用 RSA 的 协议 不 应 该 使 用 公共 模 数 。 

CD 消息 中 应 该 使 用 随机 数 填充 以 避免 对 加 密 指数 的 攻击 。 

(5) 解密 指数 应 该 大 。 

属于 基于 大 整数 因 式 分 解困 难 问题 的 公 钥 密码 体系 的 公 钥 密码 还 包括 Rabin 算法 
和 Williams 算法 。 

例 2-9 选择 两 个 大 素数 p—7.q—17.pz5q. i $E n— pq—7X17—119. (n) 
(p—D(q—1)—6X16-—96, 96 的 因子 有 2、3, 因 此 不 能 有 2 和 3 的 因子 ; 

。 选择 整数 e 一 5( 公 钥 , 即 加 密 密 钥 ) ,使 gcd(e,@(Cz) ) 一 1。 

。 选择 整数 d=77( 私 钥 , 即 解密 密 钥 ) ,使 * e mod 660 —1.(5X 77) mod 96— 

385 mod 96—1, 
* A: KU— (ein) — (5,119) A48: KR— (d.n) — {77,119}. 


2.4.3 ElGamal 算法 


ElGamal 为 目前 著名 的 公开 密 钥 密码 系统 之 一 ,是 由 ElGamal 于 1985 年 提出 的 。 
ElGamal 密码 系统 可 作为 加 解密 、 数 字 签名 等 之 用 ,其 安全 性 是 建立 于 离散 对 数 (discrete 
logarithm) 问 题 之 上 的 , 即 对 于 y — g^ mod p: 给 定 gp 与 y, 求 为 计算 上 不 可 行 。 
ElGamal 算法 包括 密 钥 生成 加密 过 程 、 解 密 过 程 。 
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1. 密 钥 生成 


(1) 任 选 一 个 大 质数 p ,使 得 p 一 1 有 大 质 因 数 。 

(2) 任 选 一 个 mod p 之 原 根 g 。 

CD 公布 p 与 g。 

使 用 者 任 选 一 私 钥 zxE Z, ,并 计算 密 钥 yg" mod p. 


2. 加 密 过 程 


COD 任 选 一 个 数 rE Z, ilie gcd(r,p 一 1)= 二 1 ,并 计算 
c — g' mod p. cz =m X y” mod p 
(2) 密 文 为 {fclycz } 。 


3. 解密 过 程 


CD 计算 w— (c1) ^! mod p, 

(2) 计算 明文 m= 二 cs Xw mod p. 

ElGamal 方法 具有 以 下 优点 : 

D 系统 不 需要 保存 秘密 参数 ,所 有 的 系统 参数 均 可 公开 。 

@ 同一 个 明文 在 不 同 的 时 间 由 相同 加 密 者 加 密会 产生 不 同 的 密 文 (机 率 式 密码 系 
统 ), 但 ElGamal 方法 的 计算 复杂 度 比 RSA 方法 要 大 。 


2.4.4 ”椭圆 曲线 公 钥 密码 算法 


公开 密 钥 密码 学 的 数学 理论 早 在 百年 前 就 已 经 很 完备 了 ,只 是 随 着 当前 计算 机 技术 
的 进步 ,将 其 应 用 开发 出 来 ,RSA、ElGamal 等 密码 系统 都 是 如 此 ,而 椭圆 曲线 在 代数 学 
与 几何 学 上 广泛 的 研究 已 超出 百年 之 久 , 已 有 丰富 且 深 厚 的 理论 ,而 椭圆 曲线 系统 第 一 
次 应 用 于 密码 学 是 1985 年 由 Koblitz 与 Miller 分 别提 出 ,随后 有 两 个 较 著名 的 椭圆 曲线 
密码 系统 被 提出 ;一 为 利用 ElGamal 的 加 密 法 ,一 为 Menezes-Vanstone 的 加 密 法 。 以 下 
将 介绍 椭圆 曲线 的 定义 .加 法 运算 与 反 元 素 运 算 。 


1. 椭圆 曲线 的 定义 


S p>3 为 质数 ,在 GF(p) 中 的 椭圆 曲线 E: y^ — a? Hart bmod p, 其 中 ,4 十 
275^ 7-0Cmod p)。 曲 线 上 另 定义 一 个 无 穷 远 点 O, 对 任 一 点 AEE,A+O=O+TA=A。 


2. 加 法 运算 


4 A-—Gi.y) 5 B-— Gy) E EWA UE rz 一 zi H yz oi Hill A--B—O; 
否则 A 十 B= Gr, y) Hb 


(2-22) 


is —M4—zz—zr 


yi = À6mi— z3) — yı 


zs s 


im 
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YY , AB 
Ta — Tı 
à= (2-23) 
32i +a A= 
2yi ` 
注意 : 椭圆 曲 线 运算 中 ,大 写 参 数 表示 点 ,小 写 参 数 表 示 数 值 。 
椭圆 曲线 中 的 乘法 运算 是 透 过 加 法 运算 达成 的 。 为 了 加 快速 度 , 可 以 用 倍加 的 运算 


来 达成 。 例 如 ,4P 计算 时 ,由 于 4P=2P 十 2P, 再 计算 2P— P-- P 即 可 。 
3. 反 元 素 运算 


点 A=(z,y) 的 反 元 素 为 一 A 王 一 (z,y) 一 (z, 一 y) 。 
A+(—A)=(—A)+A=0, eht O 称 为 乘法 单位 元 素 。 
例 2-10 在 椭圆 曲线 E: y =x --r4-6(mod 11) 上 的 点 有 : 
(2,4) (2,7) (3,5) (3,6) 
(5.2) €5,9) (7,2) (7,9) 
(8.3) (8,8) (10.2) (10.9) 
再 加 上 O 共有 13 点 。 注 意 在 计算 点 时 ,要 检验 zx’ 十 z 十 6 的 值 是 否 属于 QRu. RT 
O 以 外 ,任意 点 均 可 以 视 为 下 的 始 元 素 (primitive element) 。 
令 定义 于 Z 的 椭圆 曲线 EE 的 所 有 点 的 个 数 为 并 已 , 则 满足 : 
pHl1—24/4p« #E<p+1+2/p (2-24) 


4. 椭圆 曲线 密码 体制 


it GF(p) 是 一 个 有 限 域 ,GF(p) 上 的 椭圆 曲线 是 指 满足 Weirstrass 方程 : 
六 十 qxy 十 asy = z’ Harz’ Hax Has (IAM sa saz saz sa, sas € GF(p)) 
(2-25) 
的 所 有 解 (z,y) 与 无 穷 远 点 O 构成 的 非 空 集 合 。 

选取 一 点 GEE(GF(p)) 作 为 公共 基点 ,要求 这 个 公共 基点 的 阶 L— ord G 是 一 个 素 
数 阶 ,G 为 生成 元 ,《G) 是 由 点 G 生成 的 p 阶 循环 子 群 。 

对 于 Q=dG,d4€2,,G.QEE(GF(p)), 已 知 G、Q 求 d 称 为 ECDLP( 椭 圆 曲 线 离 散 
对 数 问题 ) 。 基 于 椭圆 曲线 的 各 种 密码 体制 的 安全 性 最 终 可 归结 为 解 ECDLP 问题 , 当 数 
据 量 足够 大 以 致 ECDLP 问题 无 法 解决 时 ,就 认为 该 密码 体制 是 安全 的 ,具有 160 位 数据 
长 度 的 ECDLP 问题 在 目前 被 认为 是 安全 的 。 

一 般 的 椭圆 曲线 密码 体制 都 基于 以 下 运算 : 

(D 存在 一 个 容易 计算 的 函数 fim POzOD, 

© 选取 整数 e,1 二 e 二 N ,选取 整数 d, 使 得 de 一 1(mod ND ,由 deP On) — Pm) ,可 恢 
复 PD. 

© 选取 整数 a,1 二 a 二 N, 由 PCm) 王 Plm) 十 aP 一 aP, 可 恢复 出 Pn). 

SECG 的 标准 文档 SEC1 中 ,对 有 限 域 GF(p) 上 的 椭圆 曲线 域 参 数 了 定义 为 如 下 六 
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元 组 : T=(p,a,b,G,n,h), HP a bE GF(p) Ai E JP y^ à Fax b.G— Gro « yo) H HR 
线 上 的 基点 ,基点 G fI fr n HRR R h HIRET h= € ECGECÓD /n. $ E(GFCD) H 
椭圆 曲线 的 阶 。 

一 个 典型 的 椭圆 曲线 公 钥 密码 可 以 描述 如 下 : 

设 p 是 不 等 于 3 的 素数 ,椭圆 有 曲线 E(GF(p)) 包 含 一 个 循环 子 群 A, 在 A 中 离散 对 
数 问题 是 难处 理 的 。 选 取 a€EE,0 二 a 二 #A 一 1, 计 算 B=aa, 将 a.8 值 公开 作为 公 钥 , 保 
密 a 作为 私 钥 。 

1) 加 密 过 程 

设 明 文 m=(m 2m;)€Z; XZ; Bl mi «m; Jg Zio 下 面 对 明 文 进行 加 密 : 

(D 选取 整数 ,0 二 k 二 #A 一 1,k 保 密 。 


@ 计算 ; yo =ka, (cı scz) =kß, yı =cım; (mod q) ys=comz (mod q). 
© 则 密 文 c= Cyo yi sye) ,将 其 发 送 给 接收 方 。 

2) 解密 过 程 

CD 接收 方 接收 到 密 文 c。 

Q 计算 : (cl,c:) 一 cyo。 


O 通过 下 列 运算 恢复 明文 : m CGyici ! (mod q). y;cz ! (mod gq))。 

椭圆 曲线 是 一 种 能 够 适应 未 来 通信 技术 和 信息 安全 技术 发 展 的 新 型 密码 体制 。 对 
于 g 元 有 限 域 上 的 椭圆 曲线 ,g 为 160 位 时 ,RSA 密码 体制 需要 1024 位 的 模 数 才能 达到 
同等 的 安全 强度 。 也 就 是 说 ,椭圆 曲线 密码 体制 在 相同 的 安全 强度 下 所 要 求 的 密 钥 强 度 
仅 是 RSA 的 1/6, 因 此 在 运算 速度 和 存储 空间 方面 具有 很 大 的 优势 ,在 实际 应 用 中 具有 
很 大 的 使 用 价值 。 


2.5 新 型 密码 技术 


2.5.1 新 型 密码 技术 简介 


由 于 目前 常用 的 一 些 常 规 密码 体制 还 存在 着 一 些 缺陷 ,人 们 仍 在 不 断 研究 安全 性 更 
高 的 加 密 手段 。 与 此 同时 ,现代 计算 技术 的 发 展 ,也 为 破译 加 密 系统 提供 了 强 有 力 的 工 
具 ,很 多 现 有 系统 已 被 成 功 破译 ,在 这 种 情况 下 ,采用 异 于 常规 密码 学 的 加 密 基 础 ,研究 
新 型 密码 技术 开始 引起 许多 研究 人 员 的 兴趣 。 

这 里 ,将 对 两 种 新 型 的 密码 技术 混沌 密码 技术 和 量子 密码 技术 进行 介绍 。 


2.5.2 混沌 密码 技术 


混沌 是 确定 性 系统 由 于 内 秉 随 机 性 而 产生 的 外 在 复杂 表现 ,是 一 种 貌似 随机 的 非 随 
机 运动 。 被 誉 为 混沌 之 父 ” 的 美国 科学 家 Lorenz 曾经 也 给 出 过 一 个 通俗 的 定义 : 一 个 
真实 的 物理 系统 ,在 排除 了 所 有 的 随机 性 影响 以 后 ,仍然 有 貌似 随机 的 表现 ,那么 这 个 系 
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统 就 是 混沌 的 。Lorenz 的 这 个 定义 说 出 了 混沌 的 如 下 基本 特征 : 

CD 混沌 是 系统 固有 的 。 系 统 所 表现 出 来 的 复杂 性 是 系统 自身 的 、 内 在 的 因素 所 造 
成 的 ,并 不 是 在 外 界 的 干扰 下 所 产生 的 ,是 系统 内 在 随机 性 的 表现 。 

(2) 混沌 是 具有 确定 性 的 。 混 沌 的 确定 性 分 为 两 个 方面 ,首先 ,混沌 系统 是 确定 的 系 
统 ,是 一 个 真实 的 物理 系统 ;其 次 ,混沌 的 表现 是 貌似 随机 ,而 不 是 经 典 意义 上 的 随机 , 系 
统 每 一 时 刻 的 状态 都 受到 前 一 时 刻 状 态 的 影响 ,而 不 是 像 随机 系统 那样 随意 出 现 ,这 是 
和 随机 系统 不 相同 的 。 

(3) 混沌 系统 的 表现 具有 复杂 性 。 混 沌 系统 的 表现 是 貌似 随机 的 , 它 既 不 是 周期 运 
动 的 ,也 不 是 准 周期 运动 的 ,混沌 系统 具有 良好 的 自 相 关 性 和 低频 带宽 的 特点 。 

混沌 理论 中 的 一 些 基 本 概念 ,如 混合 性 、 保 测 变换 以 及 敏感 性 被 认为 是 应 用 于 密码 
学 中 的 非常 有 用 的 特性 ,下 面 将 介绍 混沌 应 用 于 密码 学 所 具备 的 一 些 重 要 特性 , 主要 包 
括 对 初 值 和 系统 参数 的 敏感 性 、 类 随机 性 和 不 可 预测 性 。 

CD 对 初 值 和 系统 参数 的 敏感 性 。Brown R. 和 Chua L. O. 曾 指出 : 图 灵机 (数字 计 
算 机 的 一 种 数学 模型 ) 是 如 此 的 简单 ,以 至 于 不 可 能 是 复杂 性 的 来 源 ,因此 (系统 ) 复 杂 性 
必定 来 自 初始 条 件 。 

系统 对 初 值 的 敏感 性 有 一 个 数学 定义 , 据 此 可 作 定 量 计算 ,但 其 计算 结果 与 Lorenz 
意义 上 的 对 初 值 敏感 性 可 能 是 不 一 致 的 。 在 许多 文献 中 ,以 相 轨 按 指数 律 发 散 (或 初 值 
的 小 误差 按 指数 规律 放大 ) 作 为 对 初始 值 敏感 的 标准 。 但 是 ,这 个 提 法 是 不 严格 的 。 容 
易 理 解 , 在 应 用 科学 和 工程 上 ,采用 Lorenz 意义 上 的 对 初 值 敏感 的 概念 及 其 利用 计算 机 
仿真 的 检验 方法 (利用 短 时 间 内 相 轨 的 急剧 分 离 及 其 直观 性 ) 是 可 行 的 。 

(2) 类 随机 性 。 混 沌 具有 类 随机 性 在 学 术 界 是 一 致 肯定 的 。 混 沌 过 程 可 以 由 算法 来 
定义 ,而 随机 过 程 则 不 可 以 ,这 是 其 重要 差别 。 另 外 ,混沌 过 程 的 随机 性 实质 上 属于 内 和 村 
随机 性 。 由 于 这 些 差别 ,把 混沌 的 随机 性 称 为 类 随机 性 是 比较 合适 的 。 

掷 硬币 试验 是 一 种 随机 试验 ,属于 古典 概 型 的 典型 之 一 。 由 于 假定 硬币 是 理想 匀 质 
的 , 若 其 一 面 出 现 记 为 1, 另 一 面 出 现 记 为 0, 则 此 试验 是 将 整数 映射 到 集合 {0,1} 的 一 个 
映射 。 这 个 映射 可 以 用 来 定义 一 个 序列 ,因而 这 种 试验 的 每 一 次 试验 可 得 到 一 个 二 进 制 
数 。 这 种 试验 的 随机 性 可 以 表述 如 下 : 无 论 投掷 试验 进行 多 少 次 ,都 不 可 能 写 出 一 个 可 
由 以 前 试验 所 得 的 值 计算 出 下 一 次 所 得 值 的 公式 。 混 沌 的 类 随机 性 的 含义 与 这 一 表述 
是 一 致 的 。 也 就 是 说 ,混沌 的 类 随机 性 意味 着 混沌 的 不 可 预测 性 。 

(3) 不 可 预测 性 。 混 沌 具有 不 可 预测 性 在 许多 文献 中 都 有 明确 的 叙述 。 混 沌 吸引 子 
起 着 局 部 噪声 放大 器 的 作用 ,一 个 小 的 起 伏 会 导致 相 轨 迅速 产生 很 大 的 偏离 ;过 去 和 将 
来 (系统 状态 ) 没 有 必然 的 联系 。 根 据 上 面 的 随机 性 的 表述 ,可 以 给 出 定义 : 对 于 动态 系 
统 的 一 个 变量 和 任意 给 定 的 时 间 如 过 0, 如 果 总 可 以 找到 不 大 的 时 间 间 隔 At 之 0, 而 不 可 
能 找到 这 样 的 一 个 通用 公式 或 算法 : 它 可 以 用 来 进行 由 时 的 变量 值 确定 十 Ato 时 的 
值 的 计算 , 则 该 系统 是 不 可 预测 的 。 由 此 定义 可 知 ,利用 数字 计算 机 对 混沌 系统 进行 仿 
真 时 由 一 个 初始 所 得 的 相 轨 不 是 该 系统 的 解 。 换 句 话说 ,此 时 计算 机 及 其 算法 所 构成 的 
系统 不 是 原 混沌 系统 的 准确 模型 ,问题 在 于 丧失 了 初始 值 的 随机 性 。 然 而 ,利用 数字 计 
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算 机 对 混沌 系统 进行 统计 分 析 所 得 结果 能 够 近似 反映 混沌 系统 的 统计 特性 。 

L. Kocarev 指出 了 混沌 系统 和 常规 密码 学 的 混沌 系统 常规 密码 学 
关系 ,如 图 2-9 所 示 。 混 沌 密码 学 和 常规 密码 学 
具有 一 些 相同 点 : 对 系统 参数 和 初始 值 敏感 类 


[ 相 空 间 : 实数 集 | | | [ 相 空间 : 整数 集 


随机 特性 ,长 期 的 不 稳定 非 周 期 轨道 ;密码 算法 || PUTARET RU 扩散 
的 加 密 轮 数 导 致 扩散 和 混 清 效果 的 产生 ,混沌 密 
类 随机 性 if 


pid cl e oclo o me ico. | 

布 至 整个 相 空间 ;混沌 系统 的 系统 参数 可 以 作为 “|[ 系统 参数 [17 
| 
[ 


密码 系统 的 密 钥 。 混 沌 密码 学 与 常规 密码 学 不 ERUM 加 密 论 数 
同 之 处 在 于 常规 密码 学 是 定义 在 有 限 整数 集 上 ， 2 性 能 与 安全 性 
而 混沌 密码 学 中 混沌 系统 只 在 实数 集 上 有 意义 。 
与 此 同时 ,在 混沌 密码 领域 ,还 没有 建立 和 常规 ”图 29 混沌 系统 和 常规 密码 学 的 比较 
密码 学 相 类 似 的 性 能 和 安全 性 分 析 理 论 。 

按照 常规 密码 学 的 分 类 方法 ,类 似 地 ,可 以 将 混沌 密码 分 为 混沌 对 称 密 钥 密码 和 混 
沌 公 钥 密码 ,其 中 混沌 对 称 密 钥 密码 又 可 以 分 为 混沌 流 密码 和 混沌 分 组 密码 。 


l. 混沌 对 称 密 钥 密码 


一 般 来 说 ,混沌 对 称 密 钥 密 码 有 两 种 通用 的 设计 方法 : 第 一 种 是 使 用 一 个 或 多 个 混 
沌 系统 生成 伪 随 机 密 钥 流 ,然后 使 用 该 密 钥 流 对 明文 进行 掩盖 加 密 ; 第 二 种 是 使 用 明文 / 
密 钥 作为 混沌 系统 的 初始 值 /控制 参数 ,通过 多 次 迭代 / 反 向 迭代 运算 得 到 明文 。 第 一 种 
设计 方法 对 应 常规 密码 学 中 的 流 密码 。 在 此 称 为 混沌 流 密 码 ; 第 二 种 设计 方法 对 应 常规 
密码 学 中 的 分 组 密码 。 类 似 地 ,我 们 称 之 为 混沌 分 组 密码 。 

1) 典型 的 混沌 流 密 码 

典型 的 混沌 流 密码 主要 包括 基于 混沌 伪 随 机 数 发 生 器 的 流 密码 以 及 基于 混沌 逆 系 
统 方法 设计 的 流 密码 。 

由 于 混沌 系统 轨道 的 不 可 预测 性 ,很 多 研究 集中 在 使 用 混沌 系统 构造 伪 随 机 数 发 生 
器 (Peusodo-Random Number Generator. PRNG) 上 。 基 于 混沌 伪 随 机 数 发 生 器 的 流 密 
码 的 核心 部 分 是 混沌 伪 随 机 数 发 生 器 ,以 混沌 伪 随 机 数 发 生 器 的 输出 作为 密 钥 流 对 明文 
进行 掩盖 加 密 。 从 笔者 目前 所 掌握 的 文献 来 看 .主要 有 以 下 两 种 生成 混沌 伪 随机 数 的 方 
法 ( 见 图 2-10) : 

CD 抽取 混沌 轨道 的 部 分 或 全 部 的 二 进 制 比特 。 

@ 将 混沌 系统 的 定义 区 间 分 割 成 为 个 互 不 相交 的 子 区 间 , 每 个 区 域 用 唯一 的 0 一 
n 一 1 的 数值 标记 。 通 过 迭代 混沌 系统 ,看 迭代 变量 值 落 入 哪个 子 区 间 ,获得 相应 子 区 间 
的 标记 ,从 而 得 到 相应 的 伪 随 机 数 。 

这 两 种 混沌 伪 随 机 数 的 生成 方法 之 间 存 在 一 定 的 关系 : 即 从 数字 的 角度 来 看 ,方法 
一 中 从 混沌 轨道 的 部 分 或 全 部 的 二 进 制 比特 所 组 成 的 数值 也 是 在 某 一 个 范围 的 , 故 可 看 
做 是 方法 二 的 一 个 特例 ;同时 , 当 方 法 一 抽取 混沌 轨道 全 部 的 二 进 制 比特 时 ,方法 二 则 可 
以 看 做 是 方法 一 的 一 个 特例 。 
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二 进 制 比特 


二 进 制 比特 
图 2-10 混沌 伪 随 机 数 生成 方法 


常见 的 几 种 基于 混沌 逆 系 统 的 混沌 密码 的 基本 结构 都 可 以 表示 如 下 : >y(z) Su 
f. GG D yG—48) mod 1, 其 中 (1)、y() 分 别 表示 明文 和 密 文 ;f.(。) 是 一 个 从 
反馈 密 文生 成 掩盖 明文 的 伪 随 机 密 钥 流 的 & 元 函数 。 在 不 同 的 方法 中 ,f.(1) 的 定义 不 
同 。 如 f.()=ay(t 一 ]) 十 by(1 一 2),f.(1)==F”"(y(1 一 1),p) 等 。 其 中 ,F(x,p) 是 一 个 在 
L 一 bit(L 二 m) 有 限 精度 下 实现 的 逐 段 线性 混沌 映射 : 


x/p. x € [0.5) 
fG,)—4G—5)/(0.5—5). xz ELp,0.5] (2-26) 
F(1—zx,p), r€[0.5,D 


2) 典型 的 混沌 分 组 密码 
典型 的 混沌 分 组 密码 包括 : 基于 逆向 迭代 混沌 系统 的 分 组 密码 ,基于 正 向 迭代 混沌 
系统 的 分 组 密码 和 基于 混沌 S 盒 (Substitution-Box) 的 分 组 密码 。 
T. Habutsu 等 使 用 逆向 迭代 混沌 系统 构造 密码 系统 。 其 基本 方法 是 : 给 定 一 个 秘 
密 密 钥 p 和 如 下 的 tent 映射 P,(z) 以 及 它 的 逆向 映射 Fy! (x): 
z/p» x € [0.5] 


FG = (2-27) 
0—2)/0—5p, z€(p1] 
, b—0 
FG) = [f* (2-28) 
]--5), bed 


这 里 45 是 一 个 在 集合 {0,1) 中 均匀 分 布 的 随机 变量 。 该 密码 系统 按照 如 下 方式 加 密 
每 个 明文 分 组 PE (0,1) ,得 到 密 文 C:C 二 Fp"(P) ,这 里 需要 生成 个 随机 比特 5 ~b, 来 
确定 每 次 逆向 迭代 的 输出 。 在 解密 过 程 中 ,明文 P 则 通过 正 向 迭代 进行 恢复 : 

P-—FO —FG,G) 

L. Kocarev 等 提出 了 一 种 类 似 Feistel 网 络 结构 的 混沌 分 组 密码 方案 ,其 结构 如 
图 2-11 所 示 。 设 Bo 为 64 位 的 明文 分 组 ,zi,o cmi emus RIRA B; 的 8 位 ,也 就 是 说 
B= tioti ,Zit。 加 密 过 程 包 含 r 轮 对 明文 分 组 相同 的 变换 处 理 ,每 一 轮 加 密 过 程 
表示 如 下 : 

Gua = xiaa 图 fia lti, ss Ti Zi (2-29) 

其 中 ,i 二 1,2,…,r,k 二 1,2,… ,8, fo zio sr ro ,Xo 三 X1 ,zio，"… ,zi7 为 控制 第 i 轮 运算 
的 子 密 钥 z; 的 8 个 比特 。 函 数 o foo f 

fi = fGusxixj.m) (2-30) 


36 Qiosssumsna 


其 中 ,j= 二 1,2,…,7,f:M>M,M 一 10,2,…,255) 为 一 个 离散 化 的 混沌 映射 。 输 出 分 组 
B= Tio szint ,Ti? 作 为 下 一 轮 的 输入 分 组 ,B, = Erno mast ,x1,7 为 密 文 分 组 。 其 解密 
过 程 为 对 密 文 分 组 B, 进行 > 轮 解 密 操作 ,得 到 明文 Bu 。 每 一 轮 解密 过 程 为 : 

Tizi — Tikt © fiabxaa s Ti 1 siad (2-31) 
其 中 ,k= 二 1,2,…,8, fo 二 zo ,Zs 三 zo ,zo 三 Ti。 通过 对 以 指数 函数 和 Logistic 混沌 映射 为 
例 对 密码 方案 的 性 能 进行 了 评估 ,表明 具有 可 接受 的 线性 允 近 概率 和 差分 允 近 概率 , 具 
有 和 较 好 的 抵抗 线性 攻击 和 差分 攻击 的 能 力 。 


Zi f 
; z ii 
Zis > P 
m -10 
xij Hill 
. Xia 
Xie 


图 2-11 一 种 类 似 Feistel 网 络 的 混沌 分 组 密码 结构 图 


2. 混沌 公 钥 密码 


根据 目前 所 收集 到 的 资料 ,一共 只 有 6 种 混沌 公 钥 密 码 系统 被 公开 报道 过 。 其 中 两 
种 混沌 公 钥 密码 是 基于 胞 元 自动 机 的 ,虽然 目前 还 未 有 相关 的 密码 分 析 报 道 ,但 这 两 种 
公 钥 密码 的 安全 性 还 有 待考 察 。 这 里 将 简单 介绍 其 他 4 种 混沌 公 钥 密码 。 

Fengi Hwu 提出 了 一 类 混沌 公 钥 密码 。 实 际 上 ,该 密码 是 ElGamal 公 钥 方案 的 一 个 
变形 ,其 基本 工作 原理 如 下 : 每 个 用 户 选 择 并 公开 一 组 参数 (oo ,av ,a) 作 为 公开 密 钥 同时 
选择 一 个 整数 作为 私 钥 , 这 里 a 在 {1,2,…,p 一 1} 上 均匀 分 布 ,a, 迭代 下 述 混沌 映射 
nn 次 (以 ao 为 初始 值 ) 得 到 : FC) =ar mod pp 或 者 F(x) 二 x* mod p( 或 者 其 他 更 加 复杂 
的 数字 化 混沌 映射 ) 。 整 数 户 是 一 个 大 素数 (200 比特 左右 ) 并 且 使 得 p 一 1 有 一 个 大 的 素 
因子 ,a 是 p 的 一 个 生成 元 。 然 后 以 类 似 ElGamal 公 钥 方案 的 方式 进行 加 密 和 解密 。 

Tenny Roy 等 提出 了 一 种 基于 DDE 的 混沌 公 钥 密码 系统 。 该 类 公 钥 密码 系统 的 工 
作 原 理 为 : 将 一 个 Dr 十 De 维 的 动力 学 系统 分 割 为 一 个 包含 Dr 系统 变量 的 发 送 方 子 系 
统 ( 公 开 ) 和 包含 Dr 维系 统 变 量 的 接收 方 (秘密 ) 子 系统 。 发 送 方 传送 一 个 嵌 人 了 明文 信 
号 m(n) 的 标量 信号 s,(n) 给 接收 方 ,接收 方 则 反 送 另外 一 个 标量 信号 s,(n) 给 发 送 方 。 给 
定 整个 动力 学 系统 的 两 个 不 同 的 吸引 子 ,每 个 明文 比特 m(n) 通 过 判断 系统 在 L 次 混沌 
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迭代 后 收敛 到 哪个 混沌 吸引 子 来 得 到 。 该 DDE 系统 的 性 能 通过 一 个 耦合 映射 网 格 得 到 
了 演示 。 在 该 混沌 公 钥 密码 系统 中 ,对 每 个 比特 而 言 ,上 述 的 混沌 吸引 子 需要 经 常 改变 
以 抵抗 明文 攻击 ,但 这 种 吸引 子 的 改变 可 能 会 加 大 接收 方 的 运算 开销 。 算 法 的 提出 者 分 
析 了 当 信 道中 存在 噪声 的 情况 下 如 何 抵抗 一 类 基于 隐 Markov 模式 (Hidden Markov 
Model, HMM) 的 攻击 ,并 指出 在 噪声 较 大 的 情况 下 可 能 会 导致 安全 性 降低 。 

L. Kocarev 等 人 提出 了 一 种 基于 p 次 Chebyshev 多 项 式 映射 混沌 在 T,==0 M T, = 
工时 的 公 钥 密码 方案 ,该 方案 受 RSA 和 Rabin 算法 思想 X,+1 王 (X,)*(mod N) 的 启发 ， 
利用 Chebyshev 映射 的 半 群 特性 , 即 

TAT GOD = TAT) = TG) (2-32) 
构造 了 一 个 几乎 与 RSA 算法 几乎 一 模 一 样 的 公 钥 算法 。 虽 然 该 方案 在 实数 域 具有 
运算 速度 快 的 优点 ,但 同时 指出 了 该 公 钥 密 码 在 已 知 密 文 攻击 下 是 不 安全 的 。 

最 新 出 现 的 混沌 公 钥 密码 方案 是 2005 年 由 国立 新 加 坡 大 学 的 学 者 Wang Xingang 
和 Gong Xiaofeng 在 CHAOS 发 表 的 基于 耦合 映射 格子 通用 同步 (GSCML) 的 公 钥 密码 
方案 , 它 以 Merkle 难题 (Merkle's puzzles) 和 预测 通用 同步 函数 的 困难 性 为 密码 系统 的 
安全 基础 。 该 方案 由 一 个 新 设计 的 单 向 耦合 映射 格子 系统 (一 种 混沌 动力 系统 ) 和 
Merkle 难题 相 结合 构成 。 分 析 和 讨论 表明 该 公 钥 密码 算法 将 混沌 动力 系统 与 Merkle 难 
题 相 结合 具有 如 下 新 的 特点 : 它 能 够 满足 不 同安 全 要 求 变化 的 需要 , 密 钥 的 推导 过 程 是 
可 管理 的 , 且 能 够 推广 到 实际 应 用 。 


2.5.3 量子 密码 技术 


量子 密码 学 是 当代 密码 理论 研究 的 一 个 新 领域 ,近年 来 在 密码 理论 研究 中 逐渐 热门 
起 来 。 量 子 密码 学 的 思想 最 早 是 由 20 世纪 60 年 代 末 美国 人 Stepphen Wiesener 在 一 份 
手稿 中 首先 提出 的 ,后 来 美国 IBM 公司 Thomas. Waston 研究 中 心 的 Charles H. Bennett 
与 加 拿 大 蒙特 利 尔 大 学 的 GillesBrassard 受 其 思想 影响 在 1982 年 美洲 密码 学 会 上 发 表 
了 第 一 篇 论文 ,1984 年 提出 了 量子 密码 协议 ,现在 被 通称 为 BB84 协议 ,并 于 1989 年 制 
作 了 一 台 原 型 样机 。 后 来 ,英国 防卫 研究 署 、 瑞 士 日 内 瓦 大 学 、 英 国电 信和 实验 室 和 美国 国 
家 实验 室 分 别 进行 了 类 似 的 研究 ,用 相位 编码 的 方式 实现 了 bb84. QKD 方案 ,光线 传输 
长 度 达 到 了 10 千 米 。 到 1995 年 ,在 光纤 中 的 传输 距离 达到 了 30 千 米 。2000 年 ,美国 洛 
斯 阿拉 莫 (LosAlmos) 国 家 实验 室 在 自由 空间 里 进行 的 量子 密 钥 分 配 的 传输 距离 达到 了 
1.6 千 米 。2003 年 ,欧洲 小 组 在 自由 空间 中 的 距离 达到 了 23 千 米 。 目 前 他 们 正在 为 地 
面 与 低 轨 道 卫 星之 间 的 量子 密码 通信 试验 做 准备 。2006 4E ,中国 科学 技术 大 学 潘 建 伟 教 
授 领 导 的 研究 小 组 ,在 国际 上 首次 成 功 地 实现 了 两 粒子 复合 系统 量子 态 的 隐形 传输 ,并 
且 第 一 次 成 功 地 实现 了 对 六 光子 纠缠 态 的 操纵 。 

目前 ,量子 秘密 共享 、 量 子 签名 和 量子 认证 都 是 最 近 发 展 起 来 的 量子 密码 技术 研究 
方向 。 量 子 密码 是 以 Heisenberg 测 不 准 原 理 ( 光 子 的 偏振 现象 ) 和 EPR 效应 为 物理 基 
础 ,利用 光纤 异地 产生 物理 噪声 。 它 可 以 真正 地 实现 一 次 一 密 密 码 ,构成 理论 上 不 可 破 
译 的 密码 体制 。 光 子 不 能 被 克隆 的 性 质 使 量子 密码 编码 操作 过 程 不 能 被 完全 窃听 ,一 旦 
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存在 窃听 也 可 以 察觉 ,并 可 以 设法 消除 。 
1. 量子 密 钥 产生 与 分 发 的 物理 基础 


CD 光子 的 偏振 现象 : 每 个 光子 都 有 一 个 偏振 方向 即 电 场 的 振荡 方向 。 在 量子 密码 
学 中 用 到 两 种 光子 偏振 , 即 线 偏振 和 圆 偏振 ,其 中 , 线 偏振 可 取 两 个 方向 : 水 平方 向 和 垂 
直方 向 ; 圆 偏 振 包括 左旋 和 右 旋 两 种 情况 。 在 量子 力学 中 ,光子 的 线 偏振 状态 和 圆 偏振 
状态 是 一 对 共 罗 可 观测 量 , 也 就 是 说 ,光子 的 线 偏 振 态 状 态 与 圆 偏 振 态 状态 是 不 可 同时 
测量 的 。 值 得 说 明 的 是 ,在 同一 种 偏振 态 下 的 两 个 不 同 的 方向 是 可 完全 区 分 的 ,例如 在 
线 偏振 态 中 的 水 平方 向 和 垂直 方向 是 可 完全 区 分 的 ,因而 可 同时 准确 测量 。 

(2) Heisenberg 测 不 准 原理 : 光子 的 一 对 共 罗 偏振 态 是 互补 的 , 正 是 这 一 本 质 特征 
为 BB84 协议 提供 了 实现 的 基础 。 实 际 上 ,在 量子 力学 中 任何 两 组 不 可 同时 测量 的 物理 
量 都 是 共 力 的 ,都 满足 互补 性 ,在 进行 测量 时 ,对 其 中 一 组 量 的 精确 测量 必然 导致 男 一 组 
量 的 完全 不 确定 , 即 遵循 量子 力学 的 基本 原理 一 一 Heisenberg 测 不 准 原理 。 

(3) EPR(Einstein Podolsky Rosen) 纠 缠 效 应 : 一 个 球 对 称 原子 系统 中 ,同时 向 两 个 
相反 的 方向 发 射 两 个 相干 光子 ,初始 时 这 两 个 光子 都 是 未 被 极 化 的 ,测量 其 极 化 态 ( 偏 振 
态 ) 时 ,对 两 个 光子 中 的 任 一 个 进行 测量 可 得 到 测量 光子 的 极 化 态 , 同 时 另 一 个 光子 的 极 
化 态 也 被 同时 确定 ,但 两 个 光子 的 极 化 态 的 方向 相反 o 

(4) 单 量子 不 可 克隆 定理 : 所 谓 “ 克 隆 ” 是 指 原来 的 量子 态 在 不 被 改变 的 情况 下 ,在 
另 一 个 系统 中 产生 一 个 完全 相同 的 量子 态 。 对 于 一 个 未 知 的 单 量 子 态 不 能 被 完全 拷贝 。 
对 两 个 非 正 交 的 量子 态 不 能 被 完全 拷贝 。 要 从 编码 在 非 正 交 量 子 态 中 获得 信息 ,不 扰动 
这 些 态 是 不 可 能 的 。 


2. 量子 密 钥 产生 与 分 发 的 实现 过 程 


量子 密码 学 还 不 能 像 对 称 、 公 钥 加 密 体制 那样 能 对 数据 直接 进行 加 密 处 理 ,目前 只 
能 进行 安全 密 钥 分 发 。 量 子 密 钥 产生 与 分 发 的 实现 过 程 大 致 可 分 为 5 个 过 程 。 

CD 量子 传输 : 不 同 的 协议 有 不 同 的 量子 传输 方式 ,但 有 一 个 共同 点 : 它们 都 利用 量 
子 力 学 原理 或 量子 现象 来 实现 。 在 实际 的 通信 中 ,光子 态 序列 中 光子 的 极 化 态 将 受到 噪 
声 和 Eve( 窃 听 者 ) 的 影响 ,但 按照 Heisenberg 测 不 准 原理 ,Eve 的 干扰 必 将 导致 光子 极 
化 态 的 改变 ,这 必然 会 影响 Bob 的 测量 结果 。 由 此 可 对 Eve 的 行为 进行 判定 和 检测 。 

(2) ie. 在 量子 传输 中 由 于 噪声 和 Eve 的 作用 ,光子 态 序列 中 光子 的 极 化 态 
会 发 生 改 变 。 另 外 ,实际 系统 中 ,Bob( 信 息 接收 者 ) 的 接收 仪器 不 可 能 有 百分之百 的 正确 
的 测量 结果 ,所 有 那些 在 传送 过 程 中 没有 收 到 或 测量 失误 ,或 由 于 各 种 因素 的 影响 而 不 
合 要 求 的 测量 结果 ,由 Alice( 信 息 发 送 者 ) 和 Bob 经 过 比较 测量 基 矢 后 全 部 放弃 ,并 计算 
错误 率 。 若 错误 率 超过 一 定 的 阔 值 ,Alice 和 Bob 放弃 所 有 的 数据 并 重新 开始 ,如 果 是 一 
个 可 以 接收 的 结果 , 则 Alice 和 Bob 将 筛选 后 的 数据 保存 下 来 ,所 获得 数据 称 为 筛选 数据 
(sifted data). 

(3) 数据 纠 错 : 所 得 到 的 比特 筛选 数据 并 不 能 保证 Alice 和 Bob 各 自 保存 的 安全 
一 致 性 ,这 可 以 由 各 种 因素 造成 ,解决 这 一 问题 的 办 法 是 对 原 数据 进行 纠 错 ,如 采用 奇偶 
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校 验 等 。 这 样 做 的 目的 是 为 了 减少 Eve 所 获得 的 密 钥 信息 。 

(4) 保密 加 强 : 保密 加 强 是 为 了 进一步 提高 所 得 密 钥 的 安全 性 而 采取 的 措施 ( 非 量 
子 的 方法 ) ,其 具体 实现 为 : 假设 Alice 发 给 Bob 一 个 比特 串 ,Eve 获得 的 比特 为 :二 n。 
为 了 使 Eve 所 获得 的 信息 无 用 ,Alice 和 Bob 采用 秘密 加 强 技术 : 公开 选取 一 个 压缩 函 
数 G: {0,1)" 一 (0,1 六 ,其 中 是 被 压缩 后 密 钥 的 长 度 ,这 样 使 得 Eve MW 中 获取 的 信息 
和 她 的 关于 函数 G 的 信息 给 出 她 对 新 密 钥 二 GC(W) 尽 可 能 少 的 信息 。 对 任意 的 ;二 
n 一 t,Alice 和 Bob 可 得 到 长 度 为 r==n 一 t 一 s 比特 的 密 钥 KK 二 G(W) ,而 Eve 所 获得 的 信 
REB s 按 指数 减少 V= Fe 一 as) 。 

(5) 身份 确认 : 以 上 是 假定 Alice 和 Bob 都 是 合法 的 ,然而 在 实际 通信 中 ,存在 Alice 
和 Bob 假冒 的 情况 ,为 此 应 在 量子 密 钥 的 获取 过 程 中 加 上 身份 确认 这 一 非 量 子 过 程 ,可 
采用 以 往 的 身份 认证 方案 , 亦 可 从 获得 的 量子 密 钥 中 获取 认证 密 钥 而 实现 。 后 一 种 方案 
是 从 所 获得 的 量子 密 钥 ( 称 为 原 密 钥 ) 中 截取 一 部 分 作为 认证 密 钥 ,然后 Alice 和 Bob 用 
认证 密 钥 进行 身份 认证 。 

由 于 采用 的 4 个 偏振 态 光 子 中 线 偏振 和 圆 偏振 是 不 对 称 的 ,因此 它们 不 可 以 同时 准 
确 测量 。 由 于 Eve 事先 不 知道 这 些 光子 态 «Eve 不 可 能 正确 地 选取 每 一 个 光子 态 的 测量 
基 , 因 此 Eve 测量 时 ,由 Heisenberg 测 不 准 原理 可 知 ,会 对 Alice 发 送 的 光子 态 有 扰动 ， 
这 给 Alice 和 Bob 的 测量 结果 中 留 下 痕迹 ,这 样 使 得 Eve 的 目的 不 可 能 实现 。 


3. 量子 密码 基本 协议 


在 量子 密码 学 中 ,通信 双方 的 秘密 通信 和 是 通过 量子 密 钥 分 配 协 议 的 支撑 来 实现 的 。 
在 某 一 加 密 系 统 中 ,依据 协议 ,通信 双方 能 在 一 个 即将 作为 密 钥 的 秘密 比特 串 问题 上 达 
成 一 致意 见 。 目 前 ,量子 密码 的 协议 主要 有 三 种 。 

1) BB84 协议 

BB84 协议 是 基于 两 种 共 思 基 的 四 态 方 案 , 其 原理 是 利用 单 光子 量子 信道 中 的 测 不 
准 原 理 。Alice 每 隔 一 定时 间 随 机 地 从 4 个 光子 极 化 态 0、x/4、x/2、3x/4 中 任意 选取 一 
个 发 送 给 Bob ,形成 具有 一 定 极 化 态 的 光子 态 序列 ,并 记录 每 一 个 光子 态 对 应 的 基 矢 类 
型 。Bob 接 到 Alice 发 送 的 信号 后 ,开始 接收 Alice 发 送 的 光子 态 序列 ,Bob 为 每 一 个 光 
子 从 两 种 测量 基 矢 中 随机 地 选取 一 种 进行 测量 ,然后 记录 测量 的 结果 并 秘密 保存 。Bob 
接收 并 测量 完 Alice 发 送 来 的 极 化 态 光 子 序列 后 ,向 Alice 公开 其 测量 过 程 中 所 用 的 基 矢 
或 测量 类 型 。Alice 进行 比较 并 告诉 Bob 其 比较 的 结果 : 告诉 Bob 哪些 是 正确 的 ,哪些 
是 错误 的 。 根 据 比 较 结果 ,Alice 与 Bob 按照 事先 的 约定 将 经 过 比较 后 的 所 有 正确 的 光 
子 极 化 态 翻 译 成 二 进 制 比特 串 ,从 而 获得 所 需 的 密 钥 。 

2) B92 协议 

B92 协议 是 基于 两 个 非 正 交 态 的 两 态 方案 ,其 原理 是 利用 非 正 交 量 子 态 不 可 区 分 原 
理 ,这 是 由 测 不 准 原理 决定 的 。 首 先 , 选 择 光子 的 任何 两 套 共 思 的 测量 基 , 取 偏振 方向 为 
0 和 x/2,x/4 FI 3x/4 的 两 套 线 偏振 态 ,并 定义 0 和 3x/4 代表 量子 比特 0、x/4 和 x/2 fX 
表 量 子 比 特 1。 合 法 用 户 Alice 随机 发 射 偏振 态 ( 这 里 取 0 和 x/4),Bob 随机 使 用 偏振 态 
(这 里 取 x/2 和 3x/4) 进 行 同步 测量 。 下 面 给 出 建立 密码 本 的 具体 步骤 : 
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O Alice 以 0 或 x/4 光子 线 偏振 态 随机 向 Bob 发 射 选 定 的 光子 脉冲 。 

© Bob 随机 选取 rx/2 或 3r/4 方 向 的 检 偏 基 检测 , 当 Bob 的 检测 方向 与 Alice 所 选 
方向 垂直 ,探测 器 完全 接收 不 到 光子 ;当成 x/4 时 , 则 有 50% 的 概率 接受 到 光子 。 一 旦 
Bob 测 到 光子 ,Bob 就 可 推测 出 Alice 发 出 的 光子 的 偏振 态 。 

@ Bob 通过 公共 信道 告诉 Alice 所 接收 到 光子 的 情况 ,但 不 公布 测量 基 , 并 且 双 方 放 
弃 没 有 测量 到 的 数据 (空格 表示 未 接收 到 光子 ); 此 时 如 无 窃听 或 干扰 ,Alice 和 Bob 双方 
则 共同 拥有 一 套 相 同 的 随机 数 序 列 。 

@ Bob 再 把 接收 到 的 光子 转化 为 量子 比特 串 。 

© Bob 随便 公布 某 些 比特 , 供 Alice 确定 有 无 错误 。 

© 经 Alice 确认 无 误 断 定 无 人 窃听 后 , 剩 下 的 比特 串 就 可 留 下 建立 为 密码 本 。 

这 种 方法 比 BB84 协议 简单 ,但 代价 是 传输 速率 减少 一 半 , 因 为 只 有 25% 的 光子 被 
接收 到 。 

3) E91 协议 

E91 协议 是 基于 EPR 纠缠 对 编码 实现 的 ,由 Ekert 于 1991 年 提出 ,原理 是 利用 EPR 
效应 。 其 通信 过 程 是 : 

(D 由 EPR 源 产生 的 光子 对 分 别 朝 士 Z 方向 发 送 到 合法 用 户 Alice 和 Bob. Alice 任 
意 选择 检 偏 基 ( 线 偏振 基 或 圆 偏 振 基 ) 测 量 接收 到 的 其 中 一 个 光子 1, 测 量 的 结果 由 EPR 
关联 决定 。 

© 同时 Bob 也 随机 用 检 偏 基 测 量 接收 到 的 EPR 关联 对 的 另 一 个 光子 2, 并 记录 测 
量 结果 。 

@ Bob 通过 公共 信道 公开 其 使 用 的 测量 基 ( 但 不 公布 测量 结果 ),Alice 告诉 Bob Bf 
些 检 偏 基 选 对 了 ,然后 双方 保留 正确 的 结果 并 将 它 转 化 为 量子 比特 串 , 再 通过 商定 建立 
为 密码 本 。 它 与 BB84 不 同 的 是 检验 双方 保留 的 数据 是 用 Bell 不 等 式 检验 ,如 果 违 反 不 
等 式 , 表 明 量子 信道 是 安全 的 ,没有 被 窃听 ;如 果 满 足 不 等 式 时 ,表明 信道 有 问题 即 存在 
窃听 者 。 其 安全 性 源 于 Bell 原理 ,根据 量子 力学 原理 该 协议 是 安全 的 。 


思 考 题 


2.1 假设 使 用 的 密码 是 移动 了 位 的 简单 代替 密码 , 试 从 下 面 的 明文 中 找 出 明文 和 密 钥 ，: 
CSYEVIXIVQMREXIH 
2.2 Playfair 密码 可 用 的 密 钥 有 和 多少 个 ? 要 求 写成 接近 2 的 乘 方 的 形式 。 
2.3 用 Hill 加 密 消 息 meet me at the usual place at then rather eight oclock, 密 钥 为 
9 4 
| seii mon opt ecco Sce 
2.4 HEEK John F. Kennedy 下 令 击 沉 美国 巡逻 号 PT-109 时 ,在 澳大利亚 的 无 线 
站 截获 了 一 条 用 Playfair 密码 加 密 的 消息 : 
KXJEY UREBE ZWEHE WRYTU HEYFS 
KREHE GOYFI WTTTU OLKSY CAJPO 


2.7 


2.8 


PL 信息 加 密 技术 


41 


BOTEI ZONTX BYBWT GONEY CUZWR 
GDSON SXBOU YWRHE BAAHY USEDQ 
密 钥 为 royal new Zealand navy。 请 解密 这 条 消息 。 
本 题 探 讨 Vigenère 密码 的 一 次 一 密 版 本 的 用 途 。 在 这 种 方案 中 , 密 钥 是 0 一 26 之 
间 的 随机 数 流 。 例 如 ,如 果 密 钥 是 3 19 5…, 则 密 文 的 首 个 字母 使 用 3 个 字母 的 移 
位 加 密 ,第 二 个 字母 使 用 19 个 字母 的 移 位 加 密 , 第 三 个 字母 使 用 5 个 字母 的 移 位 
加 密 , 依 此 类 推 。 
CD 使 用 密 钥 流 9017231521141111289 加 密 明 文 sendmoremoney。 
(2) 使 用 (1) 中 产生 的 密 文 找到 一 个 密 钥 ,以便 该 密 文 解密 为 cashnotneeded, 
实现 RC4 算法 。 假 设 密 钥 由 下 列 七 个 字 节 构成 : 
key= (COx1A .0x2B.0x3C ,0x4D.Ox5E.0x6F 0x77) 
CD 列 出 初始 化 阶段 之 后 的 S. 
(2) 列 出 生成 100 字 节 的 密 钥 流 之 后 的 置换 S。 
G) 列 出 生成 1000 字 节 的 密 钥 流 之 后 的 置换 S。 
解决 密 钥 分 配 问 题 的 一 个 办 法 是 使 用 收发 双方 都 有 的 一 本 书 的 某 行 字 。 至 少 在 某 
些 侦探 小 说 中 经 常 把 一 本 书 的 第 一 句 话 作为 密 钥 ,这 里 就 从 一 本 富 于 悬念 的 侦探 
小 说 一 一 Ruth Rendell 的 《与 陌生 人 的 谈话 ) 中 找到 一 个 例子 。 请 不 要 找到 这 本 书 
之 后 再 来 做 这 道 题 。 
给 定 下 列 消息 : 
SIDKHKDM AF HCRKIABIE SHIMC LFEAILA 
这 段 密 钥 是 用 (沉默 的 背后 ) 艺 术 的 第 一 句 话 和 单 表 代 换 方法 产生 的 ,这 句 话 是 : 
This is lay thick on steps and the snowflaks driven by the wind looked in the 
headlights of the cars. 
请 回答 , 
(1) 加 密 算 法 是 什么 样 的 ? 
(2) 它 的 安全 性 怎么 样 ? 
(3) 为 了 使 密 钥 问 题 简单 化 ,通信 双方 都 同意 使 用 一 本 书 的 第 一 句 话 或 者 最 后 一 句 
话 作为 密 钥 , 要 想 改 变 密 钥 ,他 们 只 需 更 换 一 本 书 就 行 了 。 使 用 第 一 句 话 比 使 
用 最 后 一 句 话 要 好 ,这 是 为 什么 ? 
S KG kin b 028 56 位 的 DES 密 钥 。 列 出 DES 每 一 轮 的 48 位 子 密 钥 kio 
ks，… ,kis 。 对 于 每 位 &; 在 密 钥 中 使 用 的 次 数 做 成 表 。 能 够 设计 出 一 种 DES 子 密 
钥 扩 展 算法 是 的 每 个 密 钥 位 的 使 用 此 时 都 相同 吗 ? 
Alice 的 RSA 公 钥 是 (N,e) 王 (33.3) , 私 钥 是 d 一 7。 
(1) 如 果 Bob 加 密 消息 M — 19 给 Alice, 密 文 C 是 什么 ? 展示 Alice 将 C 解密 到 M 
的 过 程 。 
(2) 令 S 是 Alice 对 于 消息 M—25 的 数字 签名 结果 。S 是 多 少 ? 如 果 Bob 收 到 M 
和 S. fit fé Bob 验证 签名 的 过 程 。 假 设 这 一 签名 过 程 验证 成 功 。 


2.10 ”对 于 椭圆 曲线 : 
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E; y! =x*+11xr+19(mod 167) 
Tz E ERA p=(2,7) BEH E P 进行 ECC 的 Diffie-Hellman 密 钥 交 
换 , 这 里 Alice 选择 秘密 值 A 王 12,Bob 选择 秘密 值 B—31. Alice 发 送 给 Bob (19 fii 
是 什么 ? Bob 发 送 给 Alice 的 值 是 什么 ?共享 秘密 是 什么 ? 
2.11 在 ElGamal 数字 签名 方案 中 , 公 钥 是 三 元 组 (y,p,g), 私 钥 是 ,这 里 满足 
y = g” mod p CI) 
要 对 消息 M 签名 ,选择 一 个 随机 数 &, 并 且 & 5 p—1 互 素 ,计算 : 
a= gmodp 
找到 值 S 满足 
M = za c ks mod (p— 1) 
这 使 用 欧 几 里 得 算法 很 容易 计算 ,签名 的 验证 是 通过 判断 
y'a! 一 gmod p CD 
CD 选择 (y,p,g) 和 x DEC, Hn ERD ,选择 明文 M, 计 算 签 名 ,并 验证 式 (ID) 。 
(2) 证 明 该 EIGamal 签名 体制 的 正确 性 , 即 证 明 式 开 总 是 成 立 。 
提示 : 使 用 费 马 定 理 : 如 果 p 是 素数 , 且 p 不 能 整除 x, 那 么 z^! — 1mod p. 
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第 3 音 ehapter 3... 
消息 认证 与 数字 签名 


本 章 学 习 目标 

消息 认证 与 数字 签名 是 判断 数字 内 容 完 整 性 的 重要 技术 。 本 章 将 介绍 消息 认证 与 
数字 签名 的 基本 概念 、 消 息 认 证 的 模式 与 认证 方式 . 单 向 Hash 函数 与 消息 认证 码 的 基本 
原理 、 常 用 的 数字 签名 及 一 些 认证 的 方法 和 技术 。 

通过 本 章 的 学 习 , 应 掌握 以 下 内 容 : 

COD 消息 认证 的 概念 、 作 用 及 其 基本 原理 。 

(2) 单 向 Hash 函数 与 消息 认证 码 的 基本 概念 和 数字 签名 的 基本 原理 。 

(3) 认证 模式 与 认证 方式 ,常用 的 数字 签名 体制 。 


3.1 消息 认证 与 数字 签名 概述 


信息 安全 通常 包括 两 个 方面 的 内 容 : 一 方面 是 保证 其 保密 性 ,防止 通信 中 的 机 密 信 
息 被 窃取 或 破译 ,防止 发 生 针 对 系统 的 被 动 攻 击 ; 另 一 方面 是 保证 信息 的 完整 性 ,有效 
性 , 即 要 确认 信息 在 传输 过 程 中 是 否 被 算 改 、 伪 装 和 抵赖 ,以 及 与 之 通信 的 对 方 身份 的 真 
实 性 ,防止 发 生 针 对 系统 的 主动 攻击 。 

认证 是 防止 主动 攻击 (如 算 改 ,伪造 信息 等 ) 的 一 项 重要 技术 ,可 用 于 开放 环境 中 各 
种 信息 系统 安全 性 的 保护 。 认 证 的 目的 包括 以 下 两 个 方面 : 一 是 验证 信息 的 完整 性 以 及 
数据 在 传输 或 存储 过 程 中 是 否 被 自 改 、 重 放 或 延迟 等 ;一 是 验证 信息 发 送 者 的 身份 是 合 
法 的 ,不 是 冒充 的 。 

通常 ,认证 和 保密 的 关系 是 相对 独立 的 , 即 一 个 认证 系统 它 不 能 自动 地 提供 保密 的 
功能 ,而 一 个 保密 系统 也 不 会 自然 地 提供 认证 的 功能 。 图 3-1 给 出 的 是 一 个 纯 认证 系统 
的 模型 。 

在 这 个 系统 中 发 送 者 通过 一 个 公开 信道 将 信息 传送 给 接收 者 ,接收 者 除 收 到 消息 本 
身 以 外 ,还 要 通过 认证 编码 器 和 认证 译 码 器 验证 消息 是 否 被 算 改 以 及 消息 是 否 来 自 合 
的 发 送 者 。 系 统 的 串扰 者 是 指 可 截获 和 分 析 信 道中 传送 的 密 文 ,而 且 可 伪造 密 文 送 给 接 
收 者 进行 欺诈 的 主动 攻击 者 。 

消息 认证 是 指 通过 对 消息 或 者 与 消息 有 关 的 信息 进行 加 密 或 签名 变换 进行 的 认证 ， 
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" 1 

信 源 | ~ 认证 编码 器 | 信道 [认证 译 码 器 -| fu 
n 
Le 安全 信道 | 


密 钥 源 
图 3-1 一 个 纯 认 证 系统 的 模型 


目的 是 为 了 防止 传输 和 存储 的 消息 被 有 意 无 意 地 算 改 ,包括 消息 内 容 认 证 ( 即 消息 完整 
性 认证 )、 消 息 的 源 和 宿 认 证 ( 即 身份 认证 ) 以 及 消息 的 序号 和 操作 时 间 认 证 等 。 它 在 票 
据 防伪 中 具有 重要 应 用 (如 税务 的 金 税 系统 和 银行 的 支付 密码 器 ) 。 

数字 签名 (又 称 公 钥 数字 签名 .电子 签 章 ) 是 一 种 类 似 写 在 纸 上 的 普通 的 物理 签名 ， 
但 是 它 使 用 了 公 钥 加 密 技术 实现 。 一 套数 字 签 名 通常 定义 两 种 互补 的 运算 : 一 种 用 于 签 
名 , 另 一 种 用 于 验证 。 


3.2 单 向 Hash 函数 


3.1.1 基本 概念 


Hash 函数 长 期 以 来 一 直 在 计算 机 科学 中 使 用 ,无 论 从 数学 上 或 别 的 角度 看 , Hash 
函数 就 是 把 可 变 长 度 的 输入 串 转换 成 固定 长 度 的 输出 串 ( 叫 做 Hash 值 ) 的 一 种 函数 。 

Hash 函数 具备 以 下 性 质 : 

CD H 可 适用 于 任意 长 度 的 输入 数据 块 ,产生 固定 长 度 的 Hash ffi. 

(2) 对 于 每 一 个 给 定 输入 数据 M, 都 能 很 容易 计算 出 它 的 Hash ffi HM). 

G) 如 果 给 定 Hash 值 ,要 逆 推 出 输入 数据 M 在 计算 上 不 可 行 , 即 Hash 函数 具备 
单 向 性 。 

(4) 对 于 给 定 的 消息 M, 和 其 Hash ffi HOM) ,找到 满足 M;SM;.H HOM) — 
瓦 COM ) 的 M: 在 计算 上 是 不 可 行 的 , 即 抗 弱 碰撞 (Collision) 性 。 

G) 要 找到 任何 满足 HOM) — HOM) B. M; "M, 的 消息 对 CM ,M: ) 在 计算 上 是 不 
可 行 的 , 即 抗 强 碰撞 性 。 

这 里 所 说 的 碰撞 ,是 指 如 果 有 两 个 不 同 的 消息 ,它们 生成 的 Hash 值 相 同 , 则 称 发 生 
了 一 次 碰撞 。 特 别 需 要 注意 的 是 ,Hash 函数 并 不 提供 机 密 性 , 且 无 需 使 用 密 钥 就 可 以 生 
成 Hash 值 , 它 非常 适合 于 消息 认证 。 

安全 单 向 Hash 函数 的 一 般 结构 如 图 3-2 所 示 。 

由 图 3-2 可 知 , 单 向 Hash 函数 重复 使 用 一 个 压缩 函数 三 来 实现 Hash 值 的 生成 。 
压缩 函数 通常 有 两 个 输入 ,一 个 是 前 一 阶段 的 输出 Hi , 另 一 个 来 源 于 消息 分 组 M;, 最 
后 产生 一 个 输出 Hi .可 表达 为 : 
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Em 
1 
消息 填充 ， 附 加 位 长 度 等 
M, M; M, 
1 1 i 
HI f IM Im s iHa s (22 
[m 输出 变换 


图 3-2 安全 单 向 Hash 函数 的 一 般 结 构 


Mi = FCH- MD)，1i 一 1,2， (3-1) 
W, Ho 为 初始 向 量 


3.1.2 常见 的 单 向 Hash 函数 
常见 的 单 向 Hash 函数 包括 MD5、SHA-1 Tiger hash 和 CRC 等 。 
1. MD5 


MD5(Message Digest 5) 是 RSA 数据 安全 公司 开发 的 一 种 单 向 Hash 算法 ,MD5 可 
以 用 来 把 不 同 长 度 的 数据 块 进行 运算 处 理 生成 一 个 128 位 的 数据 块 。 

MD5 算法 可 简要 地 叙述 为 : MD5 以 512 位 分 组 来 处 理 输入 的 信息 , 且 每 一 分 组 又 
被 划分 为 16 个 32 位 的 子 分 组 ,经 过 了 一 系列 的 处 理 后 ,算法 的 输出 由 四 个 32 位 分 组 组 
成 ,最 终 将 这 四 个 32 位 分 组 级 联 后 生成 一 个 128 位 Hash 值 。MD5 算法 的 总 体 框架 图 
如 图 3-3 所 示 。 


a ZX512 位 =Nx32 位 


j K 位 | 填充 (1~512 位 ) 二 ke 29) 
rt - 1 1 
消息 | 1000---0 
1 "T I &15497 1 l i T bog T 1 
1 512 位 1 512 位 ”1 a ” 512 位 ”| | 512 位 l 
r* a rt r* as qp 
Y, | Y, E | Y, I fa 
m in m $n 
128 128 128 128 
-| Hyp p| Huns | ups =| Hyps 
IV CV; [nA CV, 
' 
128 位 消息 摘要 


3-3 MDS 算法 的 总 体 框架 图 


在 MD5 算法 中 ,首先 需要 对 信息 进行 填充 ,使 其 位 长 度 满足 模 512 等 于 448。 因 此 ， 
信息 的 位 长 度 将 被 扩展 至 NX512 十 448, 即 NX64 十 56 个 字 节 (Bytes) ,NN 为 一 个 非 负 整 
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数 。 填 充 的 方法 如 下 ,在 信息 的 后 面 填充 一 个 1 和 无 数 个 0, 直 到 满足 上 面 的 条 件 时 才 停 
止 用 0 对 信息 的 填充 。 然 后 ,再 在 这 个 结果 后 面 附加 一 个 以 64 位 二 进 制 表示 的 填充 前 
信息 长 度 。 经 过 这 两 步 的 处 理 , 现 在 的 信息 字 节 长 度 王 入 X512 十 448 十 64 一 (CN 十 1) XC 
512, 即 长 度 恰好 是 512 的 整数 倍 。 这 样 做 的 原因 是 为 满足 后 面 处 理 中 对 信息 长 度 的 要 
求 。 对 于 单个 信息 分 组 ,其 处 理 过 程 如 图 3-4 所 示 。 


CV, J 128 


gx 512 " 
atls} cjo? 
e ETXE 


AY B | C | D] 
| G,7TI17…32],X[P216 个 步骤 


AT B CIDI 
| H,.T[33:-:48], X[ps]]1 6/7 2598 


AY B C 1 Dt! 
—— —-|  LT[49:-:64], X[p,]]1 6472538 


[ ir ires 


CV, 


图 3-4 MDS 对 单个 512 位 分 组 的 处 理 过 程 


MD5 中 有 4 个 32 位 被 称 作 链接 变量 (chaining variable) 的 整数 参数 ,它们 分 别 为 : 
A=0x01234567 , B—0x89abcdef .C—0xfedcba98. D—0x76543210, 

当 设置 好 这 四 个 链接 变量 后 ,就 开始 进入 算法 的 四 轮 循环 运算 。 循 环 的 次 数 是 信息 
中 512 位 信息 分 组 的 数目 。 

主 循环 有 四 轮 (MD4 只 有 三 轮 ) ,每 轮 循 环 都 很 相似 。 第 一 轮 进行 16 次 操作 。 每 次 
操作 对 A、.B`C 和 中 的 其 中 三 个 作 一 次 非 线性 函数 运算 ,然后 将 所 得 结果 加 上 第 四 个 
变量 ,文本 的 一 个 子 分 组 和 一 个 常数 。 再 将 所 得 结果 向 右 环 移 一 个 不 定 的 数 , 并 加 上 A、 
B.C 或 D 中 之 一 。 最 后 用 该 结果 取代 A、B、C 或 D 中 之 一 。 

以 下 是 每 次 操作 中 用 到 的 四 个 非 线 性 函数 (每 轮 一 个 ) 。 

F(X,Y,Z) = (X&Y) | (X&Z) 

GOXCG,Y,Z) 2 (X&Z) | (Y&Z) 

HOGY,2—-XOGOYGZ 

I(X,Y,Z) =Y GO qc» 
其 中 ,& 是 与 ,| 是 或 ,一 是 非 , 四 是 异 或 。 

这 四 个 函数 的 说 明 : 如 果 XY 和 2Z 的 对 应 位 是 独立 和 均匀 的 ,那么 结果 的 每 一 位 也 
应 是 独立 和 均匀 的 。 下 是 一 个 逐 位 运算 的 函数 。 即 ,如果 XY A Z. RU H E 
位 奇偶 操作 符 。 
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每 一 轮 都 会 使 用 到 一 个 64 元 素 表 TL1…64] 中 的 四 分 之 一 ,TL1…64] 表 是 通过 正弦 
函数 构造 得 到 的 。T 中 的 第 i 个 元 素 表 示 为 了 [让 , 它 等 于 222Xabs(sin(i)) 的 整数 部 分 
值 ,i 的 单位 是 弧度 。 

在 MD5 算法 中 ,其 核心 是 压缩 函数 Hus. MD5 的 压缩 函数 中 有 4 次 循环 ,每 一 次 
循环 包含 对 缓冲 区 ABCD 的 16 步 操作 ,每 一 循环 的 形式 为 : 

Ca,b,c,d) = (d,b+ (Ca +glb,csd) + XIE]+ TLi D « $5. 
Hp abcd 对 应 着 缓冲 区 A、B、C、D 中 的 4 个 字 ;g AR F.G H, I 中 的 某 一 个 函数 ; 
X[k] 表 示 当 前 512 位 数据 块 Y, 中 的 第 & 个 32 位 ;和 ss 表示 把 32 位 循环 左 移 s 位 ;十 是 
mod 2”。MD5 的 基本 操作 如 图 3-5 所 示 。 


B [s | D 


EN 


Q 
L 


FEM 


3-5 ”基本 的 MDS 操作 


2. SHA-1 


安全 Hash 算法 (SHA) 是 由 美国 NIST 开发 ,作为 联邦 信息 处 理 标准 FIPS PUB 180 
于 1993 年 发 表 , 在 1995 年 修订 以 后 , 称 为 SHA-1( 即 FIPS PUB 180-1 标准 )。SHA-1 
是 基于 MD4 算法 设计 的 。 

SHA-1 主要 适用 于 数字 签名 标准 (Digital Signature Standard,DSS) 里 面 定义 的 数字 
签名 算法 (Digital Signature Algorithm. DSA) 。 对 于 长 度 小 于 2 位 的 消息 ,SHA-1 会 产 
生 一 个 160 位 的 消息 摘要 。 当 接收 到 消息 的 时 候 , 这 个 消息 摘要 可 以 用 来 验证 数据 的 完 
整 性 。 在 传输 的 过 程 中 ,数据 很 可 能 会 发 生变 化 ,那么 这 时 候 就 会 产生 不 同 的 消息 摘要 。 
SHA-1 有 这 样 的 特性 : 不 可 以 从 消息 摘要 中 复原 信息 ;两 个 不 同 的 消息 不 会 产生 同样 的 
消息 摘要 。 

SHA-1 算法 的 处 理 步骤 如 下 : 

O 添加 填充 位 。SHA-1 算法 对 信息 的 填充 和 MD5 采用 的 办 法 完全 一 样 。 

@ 添加 长 度 。 一 个 64 位 的 数据 块 ,表示 原始 消息 的 长 度 。 

@ 初始 化 消息 摘要 的 缓冲 区 ( 即 IV 值 )。 消 息 缓冲 区 包括 160 位 ,用 5 个 32 位 的 寄 
存 器 (A,B,…,E) 表 示 , 用 来 存储 中 间 和 最 终 Hash 函数 的 结果 。 初 始 化 为 (十 六 进 制 
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表示 ) : 
A=0x67452301 
B—O0xefcdab89 
C=0x98badcfe 
D=0x10325476 
E=0xc3d2elf0 
@ 以 512 位 数据 块 作为 单位 来 对 消息 进行 处 理 。 算 法 的 核心 是 一 个 包含 四 个 循环 
的 模块 ,每 个 循环 由 20 个 处 理 步 又 组 成 ,其 处 理 过 程 如 图 3-6 所 示 。 


" H, 4160 
14512 
DERBESEBSNENN 
——- f, K.W[O--19], 204-599 
AY B | c | DIEN 
| fc, K,W[20---39], 20 个 步骤 
41 B | c | DI E Y 
L s. K,W[A0---59], 20 个 步骤 
al B C | D Y E Y 
一 一 -| Ji. K,WI60-79], 204999 
| | 1 | pH | | tE 
+ + + + | 十 
160 
H, 


图 3-6 SHA-1 对 单个 512 位 分 组 的 处 理 过 程 


图 中 的 fis fas fas fa 为 四 个 基本 逻辑 函数 ,它们 的 结构 相似 ,每 个 循环 使 用 不 同 的 
逻辑 函数 。 逻 辑 函 数 的 定义 为 : 
fili,B,C,D) = G^C) | (B^D) (0<t<19) 
falt,B,C,D)= B^C^D (20 & t « 39) 
fali,B,C,D) = (B^C) | (B^D) | (C^D) (40 & t « 59) 
fiG,B.C.D) = B^C^D (60 « t « 79) 
KK, 为 常量 字 , 可 用 十 六 进 制 表示 如 下 : 
K, = 0x5A827999 (0 « t « 19) 
K, = 0x6ED9EBA1 (20 < £< 39) 
K, = 0x8FIBBCDC (40 < t « 59) 
K, = 0xCA62C1D6 (60 «:« 79) 
图 3-6 中 的 “十 ?表示 mod 27 .Y, 是 指 当前 512 位 的 消息 分 组 。W[Ljj] 是 由 当前 消息 分 组 
Y; 生成 的 一 组 字 , 总 共 80 个 。 其 生成 规则 为 : WL0]~~WL15] 直 接 取 自 当 前 消息 分 组 Y; 
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对 应 字 的 值 ,其 他 的 定义 如 下 : 
wE] = S'CW[:—16] ®@W[i—14]®@W[— 8] O W[: — 3) 
其 中 ,S! 表示 循环 左 移 位 一 位 操作 。 
SHA-1 的 压缩 函数 如 图 3-7 所 示 。SHA-1 的 压缩 函数 可 表示 为 : 
(A,B,C,D,E) <— ((E + f(t,B,C,D) + SS:(A)+W,+K’),A,S”(B),C,D) 


X 


a b È 
A B c D E r 3-1 上 
1 i T i 
了 : 扩展 算法 
i 2 j 
$5 4 * F, 站 
NC 2 rmm 
] F, 
[ - W 
: paeem 
a b c 
1 1 1 
4 B C D E a|5]e 
图 3-7 基本 的 SHA-1 操作 图 3-8 Tiger Hash 的 外 循环 


3. Tiger Hash 


MD5 和 SHA-1 的 结构 比较 简单 ,都 由 一 些 随机 的 转换 组 成 。Tiger Hash 函数 是 由 
Ross Anderson 和 Eli Biham 提出 的 ,结构 比 MD5 fl SHA-1 更 复杂 。 事 实 上 Tiger 的 结 
构 更 接近 于 分 组 密码 。 

同 MD5 和 SHA-1 一 样 ,Tiger 的 输入 被 分 成 512 位 的 分 组 ,如 有 需要 则 将 输入 填充 
为 512 位 的 整数 倍 。 与 MD5 和 SHA-1 不 同 的 是 Tiger 的 输出 是 192 位 。 选 择 输出 位 数 
为 192 的 设计 目的 是 为 了 适应 64 位 处 理 器 ,因为 192 正好 是 64 位 字 。 在 Tiger 中 每 轮 
的 中 间 值 也 是 192 位 。 

从 它 使 用 的 4 个 S 盒 就 可 以 看 出 Tiger 的 设计 受到 分 组 密码 的 影响 ,每 个 S 盒 将 
8 位 映射 成 64 位 ,Tiger 还 应 用 了 “ 密 钥 扩展 ”算法 ,这 是 因为 没有 密 钥 , 实 际 上 只 是 对 输 
入 分 组 进行 扩展 。 

输入 信息 X 被 填充 成 512 位 的 整数 信 , 然 后 写成 : 

X = (Xo, Xi XL) 
这 里 每 个 X; 都 是 512 fi. Tiger 算法 对 每 个 X; 使 用 一 个 外 循环 ,这 里 i 一 0,1,2,…， 
7 一 1 ,每 轮 的 结构 如 图 3-8 所 示 。 
ac 都 是 64 位 ,第 一 轮 初始 值 (a,5,c) 是 : 
a = 0x0123456789ABCDEF 
b = 0xFEDCBA9876543210 
c = OxF096F5BAC3B2E187 
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这 里 每 轮 的 结果 (a,65,c) 作 为 下 一 轮 的 初始 值 。 最 后 一 轮 的 结果 (a,5,c) 就 是 192 位 
Hash 值 。 从 这 点 上 来 看 ,Tiger 与 分 组 密码 非常 相似 。 
注意 对 于 外 循环 F; 的 输入 是 (a.5,c)。 将 Fs 的 


输出 标记 为 (a,6, 中 ,EF 的 输出 标记 为 (cwasb)。 图 3-8 一 i i 
中 每 个 函数 Fn 由 8 个 如 图 3-9 所 示 的 内 循环 构成 。 pm Wo 
将 512 位 输入 W 写成 : 
W = (Wo Wi, W3) f W, 
这 里 每 个 W; 都 是 64 位 。 图 3-9 中 每 条 线 都 代表 
64 位 。 pU — v, 
对 于 i 一 0,1,2,…,7, 记 .的 输入 值 分别 是 ; 1 1 
Ca b.c) (bcsa), (csa.b),(a,b,c), : H i 
(ca), (csab), ab,c), (b,c,a) Z< " 
fec IR H AH OU abe ,每 个 Sa E 一 F T í 
a,b,c, W; Wm ZEH W, 是 512 位 输入 W 的 第 i 个 aTa E 


64 EFR., fuih Fm 是 乘 数 。c 写成 : 
c = (Cosci ,07) 
这 里 每 个 c; 都 是 单字 节 。f，,: 定 义 如 下 : 
c— cQ, 
a 一 4 一 (So[co] e Sı Le 四 Sila] e SiL DD 
2 一 0 一 (Ss[c] e Sila] ® Site] e Sc J) 
b—b*m 


这 里 每 个 S, 都 是 8 位 映射 到 64 位 的 S 盒 。 由 于 这 些 S 盒 很 大 ,这 里 就 不 给 出 了 。 
4. CRC 


图 3-9 Tiger Hash 的 F,, 内 循环 


CRC(Cyclic Redundancy Check ,循环 元 余 校 验 码 ) 由 于 实现 简单 、 检 错 能 力 强 , 被 广 
泛 使 用 在 各 种 数据 校 验 中 。 它 占用 系统 资源 少 ,用 软件 或 硬件 均 能 实现 ,是 一 种 很 好 的 
进行 数据 传输 差错 检测 的 手段 (CRC 并 不 是 严格 意义 上 的 Hash 算法 ,但 它 的 作用 与 
Hash 算法 大 致 相同 ,所 以 归于 此 类 ) 。 

生成 CRC 码 的 基本 原理 : 任意 一 个 由 二 进 制 位 串 组 成 的 代码 都 可 以 和 一 个 系数 仅 
为 0 和 1 取 值 的 多 项 式 一 一 对 应 。 例 如 ,代码 1010111 对 应 的 多 项 式 为 x 十 x 十 zz 十 
Z 十 1 ,而 多 项 式 为 x 十 如 十 xz? 十 zx 十 1 对 应 的 代码 101111. 

CRC 码 集 选择 的 原则 : 若 设 码 字 长 度 为 N .信息 字段 为 K 位 , 校 验 字段 为 尺 位 CN 一 
KK 十 R) , 则 对 于 CRC 码 集 中 的 任 一 码 字 ,存在 且 仅 存在 一 个 R 次 多 项 式 g(x) ,使 得 : 

VG) = AGOgG) = ax*mG) + r(x) 
其 中 ,m(z) 为 K 次 原始 的 信息 多 项 式 ,r(z) 为 R 一 1 次 校 验 多 项 式 ( 即 CRC 校 验 和 ,由 多 
项 式 g(x) 对 信息 多 项 式 m Ca PROBE 2 除 得 到 ) ,g(xz) 称 为 生成 多 项 式 : 
glz) = go 十 81 工 十 gz2Z2 十 … 十 gR_IZR + gre" 

发 送 方 通过 指定 的 gCz) 产 生 CRC 码 字 ,接收 方 则 通过 该 g(z) 来 验证 收 到 的 CRC 码 字 。 
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CRC 校 验 码 生 成 方法 : 借助 于 多 项 式 除法 ,其 余数 为 校 验 字段 。 
例 3-1 信息 字段 代码 为 1011001, 相 应 地 ,m(z) 二 zx’ 十 x 十 zx 十 1, 假 设 生成 多 项 式 
H ga) —a* na +1; WIT g(Cz) 的 代码 为 11001。 
z'm(x) = x"? FH Ha 十 wt 
对 应 的 代码 记 为 10110010000。 
采用 多 项 式 除法 : 得 余数 为 : 1010( 即 校 验 字段 为 : 1010)。 
发 送 方 : 发 出 的 传输 字段 为 : 1011001 1010( 信 息 字 段 校 验 字段 ) 。 
接收 方 : 使 用 相同 的 生成 码 进行 校 验 : 接收 到 的 字段 /生成 码 (二 进 制 除法 ) 。 
如 果 能 够 除 尽 , 则 正确 。 下 面 给 出 余数 (1010) 的 计算 步骤 。 
除法 没有 数学 上 的 含义 ,而 是 采用 计算 机 的 模 二 除法 , 即 除数 和 被 除数 做 异 或 运算 。 
进行 异 或 运算 时 除数 和 被 除数 最 高 位 对 齐 , 按 位 异 或 。 
10110010000 
G11001 
01111010000 
1111010000 
11001 
0011110000 
11110000 
®11001 
00111000 
111000 
®11001 
001010 
则 四 位 CRC 监督 码 就 为 : 1010, 
利用 CRC 进行 检 错 的 过 程 可 简单 描述 为 : 在 发 送 端 根 据 要 传送 的 & 位 二 进 制 码 序 
列 , 以 一 定 的 规则 产生 一 个 校 验 用 的 7 位 监督 码 (CRC 码 ), 附 在 原始 信息 后 边 ,构成 一 个 
新 的 二 进 制 码 序列 数 共 十 r 位 ,然后 发 送出 去 。 在 接收 端 ,根据 信息 码 和 CRC 码 之 间 所 
遵循 的 规则 进行 检验 ,以 确定 传送 中 是 否 出 错 。 这 个 规则 ,在 差错 控制 理论 中 称 为 “生成 


3.1.3 单 向 Hash 函数 的 攻击 方法 


对 单 向 Hash 函数 的 攻击 可 以 分 为 普通 攻击 (generic attacks) 和 快捷 攻击 (short-cut 
attacks), 。 前 者 适用 于 所 有 的 算法 ,其 攻击 的 复杂 度 取决 于 Hash 值 的 空间 大 小 ;而 后 者 
是 通过 利用 某 些 特定 算法 的 弱点 ,从 而 较 普通 攻击 更 容易 对 算法 进行 攻击 。 


1. 单 向 Hash 函数 的 普通 攻击 


1) 随机 (第 二 ) 原 像 攻 击 
随机 (第 二 ) 原 像 攻击 中 ,攻击 者 只 是 简单 地 随机 选取 一 个 输入 从 而 获得 所 期 望 的 输 
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出 。 如 果 单 向 Hash 函数 够 “随机 ”的 话 , 其 攻击 成 功 的 概率 为 1/|1R|, 这 里 |R| 表 示 Hash 
值 的 空间 大 小 。 可 以 通过 多 次 选择 输入 核对 Hash 值 来 提高 攻击 成 功 的 机 会 。 一 般 , 大 
约 需 要 进行 二 OC(|R|) 次 这 样 的 操作 。 当 r= 二 0.7|R| 时 ,攻击 成 功 的 概率 约 为 50%, 当 
r 二 |RI 时 ,攻击 成 功 的 概率 约 为 63%。 

2) 生日 攻击 

生日 攻击 来 自 于 这 样 一 个 想法 ,在 23 个 人 中 ,其 中 两 个 人 有 相同 生日 的 概率 是 
50%。 由 于 在 直觉 上 ,大 多 数 人 会 认为 人 数 应 该 更 多 才 会 有 达到 这 样 的 结果 , 故 它 被 叫 
做 生日 悖 论 。 对 此 的 解释 如 下 : 由 于 一 年 有 365 天 ,假设 在 +r 个 人 中 ,每 个 人 的 生日 都 不 
相同 ,其 概率 为 : 


365 X 364 X S Gs r+1) 1( xz) 
故 在 该 组 人 和 群 中 ,至 少 有 两 个 人 有 相同 生日 的 概率 为 j 一 1 一 0。 当 r—23 时 ,0. 507, 
具有 相同 生日 的 概率 随 着 该 人 群 中 人 数 的 增加 而 增加 。 例 如 , 当 一 46 Ht, p™0. 948, 
在 针对 单 向 Hash 函数 的 生日 攻击 中 ,攻击 者 通过 任意 选择 ~ 个 不 同 的 输入 ,期 望 能 
够 得 到 至 少 两 个 输入 具有 相同 的 Hash 值 ( 也 就 是 意味 着 发 生 了 碰撞 ) 。 其 概率 的 计算 与 
前 面 介绍 的 方法 类 似 ,只 是 用 |R| 代 替 365( 这 必须 假设 单 向 Hash 函数 具有 “随机 ”的 特 
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r 
pei-es(7 ig] | xi) 
Flajolet P. 和 Odlyzko A. 计算 出 发 生 碰 撞 所 需要 的 输入 为 : 


JR 
2 
3) Hash 值 的 安全 输出 长 度 分 析 


P. van Oorschot 和 M. Wiener 讨论 了 将 生日 攻击 应 用 在 MD5 算法 上 所 需要 的 开 
销 。 由 于 MD5 的 输出 长 度 为 n=128 比特 ,这 意味 着 需要 进行 2 次 尝试 才 可 能 产生 一 
次 碰撞 。 在 1995 年 的 分 析 结 果 表明 ,用 一 台 定 制 的 价值 1 千 万 美元 的 机 器 可 以 在 21 天 
完成 一 次 MD5 的 碰撞 。 根 据 电脑 硬件 发 展 的 “摩尔 定律 ”, 每 过 18 个 月 ,硬件 的 计算 能 
力 将 会 增加 一 倍 。 显 然 , 输 出 长 度 为 128 比特 的 单 向 Hash 函数 无 法 抵抗 碰撞 攻击 。 该 
分 析 结 果 同 时 也 得 到 了 其 他 研究 人 员 的 验证 。1996 4E. M. Blaze 指出 ,只 有 当 生 日 攻击 
的 复杂 度 达到 2 时 才 认为 能 够 抵抗 碰撞 攻击 。 但 是 目前 在 实际 应 用 中 以 及 一 些 安全 性 
要 求 较 低 的 场合 ,一 般 认 为 128 比特 是 安全 的 。 


2. 对 单 向 Hash 函数 的 快捷 攻击 


攻击 一 个 迭代 单 向 Hash 函数 的 难度 与 攻击 其 压缩 函数 的 难度 是 相同 的 。 因 此 , 单 
向 Hash 函数 的 安全 性 可 以 由 对 其 压缩 函数 的 分 析 来 衡量 , 单 向 Hash 函数 的 设计 者 可 
以 将 他 们 的 主要 精力 集中 在 压缩 函数 的 设计 上 面 。 

链 式 攻击 是 对 具有 过 代 特性 的 单 向 Hash 函数 的 一 种 典型 快捷 攻击 。 该 攻击 主要 是 
针对 压缩 函数 ,而 不 是 整个 单 向 函数 。 下 面 介 绍 几 种 不 同 的 链 式 攻击 方法 。 
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1) 定点 攻击 

给 定 HX ERRE 三 满足 FOH NO) — H GRÁUTERTER AR ERR. f 含有 定点 。 攻 击 者 可 
以 在 计算 的 链 值 中 出 现 HRS AIER A EA X 的 信息 块 ,就 可 以 通过 该 性 质 进行 
第 二 原 像 攻击 或 者 碰撞 攻击 。 只 有 当初 始 链 值 为 不 固定 (由 攻击 者 选取 IV — HD ,或 者 恰 
巧 能 够 找到 产生 定点 的 链 值 H 的 情况 下 ,定点 攻击 才 有 可 能 发 生 。 此 外 ,该 攻击 只 有 在 
信息 的 补充 信息 中 没有 包含 信息 长 度 的 情况 下 方 能 奏效 ,同时 该 攻击 要 求 压缩 函数 的 选 
代 次 数 要 多 于 1 次 。 

2) 变更 块 攻击 

假定 攻击 者 想 寻 找 一 个 给 定 的 包含 1 块 的 输入 X 的 第 二 原 像 ,也 就 说 是 要 寻找 X 满 
足 电 (X') 二 H(X)。 在 变更 块 攻击 中 ,攻击 者 选择 输入 的 某 一 个 块 X; ,然后 用 另外 一 个 
块 X GFE SCH: XOS FCH: XORA. WR X' 中 的 其 他 的 块 和 X 的 相应 块 相同 , 则 
X' fl X 的 Hash 值 相等 ,从 而 完成 了 对 单 向 Hash 函数 的 第 二 原 像 攻击 。 

3) Meet-in-the-middle 攻击 

Meet-in-the-middle( 中 途 相遇 ) 攻 击 是 生日 攻击 的 一 个 变种 。 在 生日 攻击 中 ,每 一 次 
尝试 是 比较 最 终 的 Hash 值 是 否 相 同 ,而 在 该 攻击 中 ,只 是 比较 中 间 的 链 值 是 否 相 同 。 在 
应 用 时 ,Meet-in-the-middle 攻击 可 以 让 攻击 者 进行 原 像 攻击 ,这 一 点 无 法 在 生日 攻击 中 
实现 。 

在 MD5 算法 被 以 王小云 为 代表 的 中 国 专家 攻破 后 ,世界 密码 学 界 仍然 认为 SHA-1 
算法 是 安全 的 。 然 而 ,2005 年 2 月 ,王小云 就 宣布 攻破 SHA-1 算法 的 消息 。 因 为 SHA- 
1 在 美国 等 国家 有 更 加 广泛 的 应 用 ,密码 被 破 的 消息 一 出 ,在 国际 上 的 反响 可 谓 石 破 天 
惊 。 换 句 话 说 ,王小云 的 研究 成 果 表 明了 Hash 值 从 理论 上 讲 是 可 以 伪造 的 ,必须 及 时 添 
加 限制 条 件 ,或 者 重新 选用 更 为 安全 的 密码 标准 ,以 保证 电子 商务 的 安全 。 


3.2 消息 认证 码 


3.2.1 基本 概念 


消息 认证 码 (Message Authentication Code, MAC) 也 叫 密码 校 验 和 (cryptographic 
checksum) 是 鉴别 函数 的 一 种 。 

消息 认证 码 实现 鉴别 的 原理 是 : 用 公开 函数 和 密 钥 产生 一 个 固定 长 度 的 值 作为 认证 
标识 ,用 这 个 标识 鉴别 消息 的 完整 性 。 使 用 一 个 密 钥 生成 一 个 固定 大 小 的 小 数据 块 , 即 
MAC ,并 将 其 加 入 到 消息 中 ,然后 传输 。 接 收 方 利用 与 发 送 方 共享 的 密 钥 进行 鉴别 认 
证 等 。 

消息 认证 实际 上 是 对 消息 本 身 产生 一 个 元 余 的 信息 一 一 MAC( 消 息 认证 码 ) ,消息 认 
证 码 是 利用 密 钥 对 要 认证 的 消息 产生 新 的 数据 块 并 对 数据 块 加 密生 成 的 。 它 对 于 要 保 
护 的 信息 来 说 是 唯一 的 且 一 一 对 应 的 。 因 此 可 以 有 效 地 保护 消息 的 完整 性 ,以 及 实现 发 
送 方 消息 的 不 可 抵赖 和 不 能 伪造 。 消 息 认 证 码 的 安全 性 取决 于 两 点 : 一 是 所 采用 的 加 密 
算法 ;二 是 待 加 密 数 据 块 的 生成 方法 。 
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消息 认证 不 支持 可 逆 性 ,是 多 对 一 的 函数 ,其 定义 域 由 任意 长 的 消息 组 成 ,而 值 域 则 
是 由 远 小 于 消息 长 度 的 比特 值 构成 ,从 理论 上 说 ,一 定 存在 不 同 的 消息 产生 相同 的 元 余 
数据 块 。 因 此 必须 要 找到 一 种 足够 单 向 和 强 碰撞 自由 性 的 方法 对 消息 认证 才 是 安全 的 。 

CD 利用 校 验 码 加 密 的 方式 构造 认证 码 , 它 可 以 实现 数据 的 完整 性 , 它 对 消息 不 可 抵 
赖 ,不 可 伪造 性 的 认证 性 能 取决 于 加 密 的 函数 。 因 此 这 种 方法 的 安全 性 取决 于 校 验 码 的 
长 度 和 加 密 的 方法 。 但 是 由 于 它 是 针对 局 部 变量 的 校 验 , 比 如 针对 一 行 或 者 一 列 , 它 的 
抗 碰 撞 性 能 不 是 很 好 , 即 有 可 能 产生 消息 被 改动 ,而 认证 码 仍然 没有 变动 的 情况 。 

(2) 对 于 用 单 向 Hash 函数 构造 认证 码 的 方式 来 说 ,安全 性 是 基于 该 函数 的 抗 强 碰 
撞 性 的 , 即 攻击 的 主要 目标 是 找到 一 对 或 更 多 对 碰撞 消息 ,该 消息 生成 摘要 是 相同 的 。 
在 目前 已 有 的 攻击 方案 中 ,一 般 的 方法 是 基于 穷 举 的 ,可 攻击 任何 类 型 的 Hash 方案 , 例 
如 生日 攻击 方法 。 另 一 些 是 特殊 的 方法 ,只 能 用 于 攻击 某 些 特殊 类 型 的 Hash 方案 ,例如 
适用 于 攻击 具有 分 组 链 结构 的 Hash 方案 的 中 间 相 遇 攻 击 , 适 用 于 攻击 基于 模 算 术 的 
Hash 函数 的 修正 分 组 攻击 。 因 此 摘要 的 长 度 是 一 个 关键 的 因素 。 


3.2.2 常见 的 消息 认证 码 算法 


MAC 实质 上 是 一 个 将 双方 共享 的 密 钥 上 和 消息 m 作为 输入 的 函数 ,如 果 将 函数 
值 记 为 MAC, Gn) ,这 个 函数 值 就 是 一 个 认证 标记 ,这 里 用 9 表示 。 攻 击 者 发 起 攻击 的 
时 候 , 所 能 得 到 的 是 消息 和 标记 的 序列 对 (mm «0D «Oma s òa) e Om, 0)( 其 中 人 一 
MACi (mi;))。 如 果 攻 击 者 可 以 找到 一 个 消息 mm ASTE mimo omm, 之 中 ,并 且 能 够 得 
到 正确 的 认证 标记 6 二 MACi (m) 就 说 明 攻 击 成 功 了 。 攻 击 者 成 功 的 概率 就 是 其 攻破 
MAC 的 概率 。 

MAC 的 构造 方法 有 很 多 ,一 种 是 基于 带 密 钥 的 Hash 函数 的 ; 另 一 种 是 基于 流 密码 
的 ,这 种 MAC 不 多 也 不 流行 ,这 里 不 作 讨 论 。 另 外 ,还 有 一 种 称 为 Carter-Wegman 
MACs( 首 先 使 用 一 个 泛 Hash 函数 Cuniversal Hash) 将 长 消息 散 列 成 较 短 的 字 串 ,然后 
加 密 这 个 字 串 得 到 标记 ) ,这 种 MAC 基于 的 思想 和 前 两 类 没有 明确 的 界限 ,有 些 使 用 前 
两 种 方法 构造 的 MAC 也 可 看 成 是 Carter-Wegman MACs。 这 里 主要 讨论 基于 带 密 钥 的 
Hash PRA, 

Hash 函数 可 以 把 较 长 的 消息 变换 为 较 短 的 消息 摘要 ,并 且 具 有 抗 碰撞 性 好 的 性 质 。 
为 了 保证 消息 的 完整 性 ,必须 加 入 秘密 信息 一 一 密 钥 ,在 加 入 了 密 钥 之 后 , Hash 函数 就 
称 为 带 密 钥 的 Hash 函数 。 但 是 单独 一 个 带 密 钥 的 Hash 函数 是 不 能 直接 作为 MAC 使 
用 的 , 它 必须 经 过 特殊 的 构造 ,在 具备 了 较 好 的 性 质 后 才 可 以 用 作 消 息 认 证 码 。 在 许多 
网 络 协议 中 ,有 很 多 使 用 这 种 方法 构造 的 消息 认证 码 , 但 是 这 些 方法 都 是 基于 特殊 技巧 ， 
很 难 进行 安全 性 的 分 析 和 证 明 。 这 里 介绍 的 基于 带 密 钥 的 Hash 函数 的 MAC 可 被 证 明 
是 安全 的 。 

基于 带 密 钥 的 Hash 函数 的 构造 方法 最 早 是 由 M. Bellare 等 人 提出 。 它 要 求 所 使 用 
的 Hash 函数 具有 迭代 结构 (如 MD5,SHA-1 等 )。 所 谓 和 迭代 结构 就 是 反复 使 用 压缩 函数 
了 将 长 消息 映射 为 短 消息 。 这 个 压缩 函数 f 具有 两 个 输入 ,一 个 是 长 度 为 7 的 链 变 量 ,一 


P 23 消息 认证 与 数字 签名 55 


个 是 长 度 为 5 的 数据 块 ,表示 为 fom fka) ,其 中 ,的 长 度 为 12,z 的 长 度 为 6。 在 MD5 
中 ,0 一 512,/ 一 128。 

假定 消息 z= (zi ,zs，… ,ze), 其 中 ,zi 是 长 度 为 6 的 块 ,i 二 1,2,… ,n,n 是 总 块 数 。 
c, UL EK EOS b 的 二 进 制 串 ,其 中 包含 了 xz 最 后 不 足 5 的 部 分 和 整个 消息 长 度 的 二 进 
制 表示 以 及 一 些 填 充 位 。 那 么 使 用 压缩 函数 构造 的 Hash 函数 下 (x) 如 图 3-10 所 示 。 


LDL Ah 


£f f f f 
IV —- - ss - 一 | —F(x) 


图 3-10 具有 迁 代 结构 的 单 向 Hash 函数 


IV 代表 初始 向 量 , 其 长 度 为 /。 如 果 使 用 密 钥 & 作为 初始 向 量 , Hash 函数 就 成 了 带 
密 钥 的 Hash 函数 。 

如 果 让 下 代表 初始 向 量 固定 为 IV 且 具 有 迭代 结构 的 Hash 函数 ,那么 HMAC(z,k) 
的 构造 方法 如 下 : 


function MXC (x, k) 
t--0,k «-pad(x), x- (k® Ipad) Ilx 


t FG), 9«- F((k Oad) Ilt) 
retumó 


其 中 ,zx 是 任意 长 度 的 输入 ,k 是 长 为 1 的 密 钥 ,k 是 密 钥 填充 到 4 位 长 之 后 的 值 。 
Opad 和 Ipad 是 两 个 固定 的 长 度 为 上 的 串 。Opad 是 0x36 的 重复 直到 2" 位 长 ,Ipad 是 
0x5c 的 重复 直到 4 位 长 。 符 号 “ | 表示 将 两 个 二 进 制 串 串联 起 来 。HMAC 已 经 取代 了 
RFC 1828 成 为 IPSec 协议 中 的 认证 算法 。 

这 种 构造 方法 具备 很 多 优点 ,和 同类 型 的 MAC 算法 相 比 , 它 给 出 了 安全 性 证 明 将 
MAC 的 安全 性 归结 到 所 使 用 Hash 函数 上 。 在 软件 实现 上 , 它 要 比 使 用 分 组 密码 构造 的 
MAC 快 ,而 且 它 的 效率 特别 高 。 从 它 的 构造 上 可 以 看 出 , 它 以 一 种 非常 简单 的 方式 使 用 
带 密 钥 的 Hash 函数 , 同 底层 的 Hash 函数 相 比 ,性 能 并 没有 降低 多 少 。 另 外 两 个 值得 称 
道 的 优点 是 免费 和 黑 盒 。 免 费 是 指使 用 Hash 函数 不 受 法 律 限制 ,可 以 免费 使 用 。 黑 盒 
是 指 可 以 将 底层 的 Hash 函数 看 成 一 个 模块 ,可 根据 需要 方便 地 进行 更 换 。 

同时 ,这 种 构造 方法 还 存在 着 不 足 , 安 全 性 依赖 于 底层 的 Hash 函数 ,而 所 使 用 的 
Hash 函数 有 些 是 没有 安全 性 证 明 的 ,所 以 不 能 保证 这 种 方法 的 安全 性 。 其 次 ,由 于 压缩 
函数 是 串 行 的 ,该 构造 方法 不 支持 并 行 。 

UMAC 是 由 Black 等 人 使 用 Carter-Wegman 提出 的 思想 构造 的 一 种 算法 。 在 这 里 
将 其 划分 为 使 用 带 密 钥 的 Hash 函数 构造 的 MAC, 是 因为 该 算法 同样 使 用 了 带 密 钥 的 
Hash 函数 。 该 算法 首先 使 用 NH HASH 函数 并 充分 利用 计算 机 的 计算 特点 将 源 消 息 
变换 为 原来 消息 长 度 的 2/n( 其 中 妈 为 子 密 钥 的 个 数 ), 然 后 再 对 所 产生 的 消息 使 用 
HMAC(SHA) 进 行 Hash 变换 。 这 种 算法 被 认为 是 下 一 代 的 MAC, 其 优点 是 速度 很 快 ， 
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缺点 是 处 理 变化 的 长 度 需要 进行 特殊 的 处 理 。 
3.2.3 分 组 加 密 与 消息 认证 码 


基于 分 组 密码 设计 的 这 一 类 MAC 主要 有 : CBC-MAC、XOR-MAC、PMAC、XECB- 
MAC,OCB 和 EMAC( 加 密 的 CBC-MAC) 等 。 


1. CBC-MAC 


CBC-MAC 其 实 就 是 对 消息 使 用 CBC 模式 进行 加 密 , 取 密 文 的 最 后 一 块 作为 认证 标 
记 。 具 体 的 构造 方法 如 下 : 

function CEC- MC (x,K) 

y|, pad(x) 

partition x into X ,"** ,X 

for i—1ton 

yR Dy) 
à-y, 

retum ô 
其 中 ,z 为 消息 ,k HRH F 为 某 种 分 组 密码 算法 ,6 就 是 所 产生 的 标记 。 

这 种 方法 出 现 得 较 早 ,是 一 种 经 典 的 构造 方法 ,其 构造 方法 简单 ,底层 加 密 算法 具备 
黑 盒 的 性 质 , 可 以 方便 地 进行 蔡 换 。 后 来 的 很 多 MAC 算法 都 是 对 它 的 改进 。 但 是 CBC- 
MAC 仅 适 用 于 对 相同 长 度 的 消息 进行 认证 ,在 消息 长 度 变化 的 情况 下 是 不 安全 的 。 这 
些 在 文献 [5] 中 都 已 经 给 出 了 证 明 , 另 外 , 它 的 构造 方法 决定 了 该 算法 不 支持 并 行 计 算 。 

为 了 克服 CBC-MAC 的 上 述 弱点 对 CBC-MAC 进行 了 改进 。Bellare 给 出 了 三 种 方 
法 ,分 别 是 Input-length key separation, Length-prepending 和 Encrypt last block。 其 中 
最 有 效 的 方法 是 最 后 一 种 ,也 就 是 EMAC。 它 是 由 RIPE Project 在 1993 年 提出 的 ,接着 
被 列 人 ISO 标准 中 。 它 的 具体 构造 是 : EMAC, e, (£) =E, CCBCg, G0 rh ki ,ks 
是 密 钥 空间 中 两 个 不 同 的 密 钥 。 通 信 双 方 使 用 一 个 安全 的 密 钥 K 产生 这 两 个 密 钥 k 一 
E, (0°) .&; — E,CIO ,并 且 在 证 明 这 个 MAC 的 安全 性 的 时 候 认 为 Eu ,Eu 是 两 个 独立 随 
机 选择 函数 。 随 后 对 EMAC 进行 了 改进 ,得 到 了 三 种 新 的 MAC 算法: ECBC, FCBC 和 
XCBC, 


2. XOR-MAC 


XOR-MAC 有 两 种 方式 : 无 状态 (XMACR) 和 有 状态 (XMACC)。 这 种 算法 在 计算 
过 程 中 引入 索引 值 使 得 分 组 密码 每 次 加 密 的 明文 各 不 相同 ,最 后 再 将 所 有 的 密 文 异 或 。 
具体 的 构造 方法 描述 如 下 。 

假定 |z| 代 表 消 息 z 的 长 度 ( 即 包含 多 少 位 ) ,并 且 它 是 32 的 倍数 。z 一 (zzrz，…， 
La) HP, x] —32.i—1.2..n. BE n NT 22 。 到 ;是 数字 ;长 度 为 的 二 进 制 表 
示 ,i 代表 块 的 索引 号 。 发 送 者 保留 一 个 长 度 为 63 位 的 记 数 ,在 XMACC 模式 下 它 的 初 
始 值 为 0, 每 次 增加 1。 在 XMACR 模式 下 ,~ 是 随机 选取 的 一 个 长 度 为 63 位 的 串 。 它 们 
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的 构造 如 下 : 


function XVACR (x, k) 
pad(x) re (0,1) 
y- E. (Oll x) 
partition x into X ,"* ,为 
for i-1ton 

y- YR («i lx) 
retum (ry) 


XMACC 的 构造 如 下 : 


function XMACC (x, k) 
pad(x) ctre- ctr+ 1 


ys E; (Oll ctr) 
partition x into X ,*** ,X, 
for i-l1ton 

y- y GE (U< D lx) 
retum (ctr,y.) 


由 于 XOR-MAC 使 用 异 或 来 生成 认证 码 ,这 就 为 其 带 来 了 并 行 性 、 增 量 式 . 乱 序 验证 
(在 验证 的 时 候 不 需要 按照 顺序 进行 ) 等 优点 。 在 计算 速度 方面 ,基于 DES 的 XOR-MAC 
在 硬件 实现 效率 上 高 于 CBC-MAC; 在 软件 实现 上 使 用 MD5 实现 XOR-MAC 效率 较 高 。 
在 安全 性 方面 , 它 的 安全 性 要 高 于 CBC-MAC。 对 攻击 者 来 说 ,在 理想 情况 下 攻击 XOR- 
MAC 成 功 的 概率 要 比 攻击 CBC-MAC 成 功 的 概率 低 , 并 且 这 个 概率 跟 消息 长 度 没有 关 
系 。 该 算法 的 主要 缺点 是 在 算法 中 引入 了 索引 信息 ,导致 了 消息 的 扩展 ,导致 了 加 密 次 
数 的 增加 ,降低 了 运算 速度 。 


3. PMAC 


PMAC 可 以 看 成 是 对 XOR-MAC 的 改进 , 它 也 采用 了 异 或 来 得 到 MAC。 它 具有 可 
并 行 ,支持 消息 的 添加 、 截 短 和 替换 等 优点 。 它 与 XOR-MAC 相 比 有 两 点 不 同 : 第 一 是 
所 加 密 的 内 容 不 同 ,XOR-MAC 所 加 密 的 内 容 是 消息 连接 上 一 个 索引 信息 ,而 PMAC 使 
用 的 是 消息 和 不 同 的 串 进行 异 或 之 后 的 值 。 第 二 是 对 最 后 一 块 消息 的 处 理 不 同 。XOR- 
MAC 并 不 对 最 后 一 块 消息 进行 特殊 处 理 , 而 PMAC 并 不 直接 加 密 最 后 一 块 ,而 是 先 填 
充 并 和 前 面 块 的 加 密 结 果 进 行 异 或 ,然后 再 分 情况 进行 处 理 , 最 后 再 加 密 一 次 。 该 算法 
使 用 了 灰 码 (Gray Code) 和 有 限 域 GF(2) 上 的 乘法 运算 。 

PMAC 的 产生 方式 是 在 线 的 ,也 就 是 说 在 计算 MAC 的 时 候 不 需要 事先 知道 消息 的 
长 度 。 另 外 ,PMAC 是 确定 性 的 , 它 不 需要 一 个 随机 数 或 保留 一 个 计数 。 虽 然 PMAC H 
备 这 么 多 的 优点 ,但 是 它 的 速度 比 CBC-MAC 要 慢 , 且 该 算法 受 专利 保护 ,不 能 免费 
使 用 。 


4. XECB-MAC 


XECB-MAC 也 可 看 成 是 XOR-MAC 的 一 种 改进 , 它 仍然 采用 异 或 的 方法 得 到 
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MAC, 因 此 它 同时 具有 XOR-MAC 的 优点 ,如 支持 并 行 计算 、 增 量 式 操作 、 乱 序 验 证 
等 。 和 XOR-MAC 不 同 的 是 它 没有 使 用 消息 的 有 效 位 来 记录 消息 的 位 置 , 这 样 就 减少 
了 加 密 的 次 数 ,因此 它 的 速度 要 高 于 XOR-MAC, 但 低 于 CBC-MAC。 而 且 它 的 安全 性 
没有 XOR-MAC 的 高 。 由 于 在 许多 需要 加 密 的 情况 下 也 同时 需要 对 消息 进行 认证 ,而 
简单 地 将 加 密 算法 和 认证 算法 结合 起 来 的 方法 并 不 能 保证 其 安全 性 ,所 以 就 出 现 了 同 
时 提供 加 密 和 认证 的 模式 ,这 种 模式 有 XCBC 和 OCB 等 。XCBC 对 消息 同时 提供 加 密 
和 认证 , 它 也 分 为 无 状态 和 有 状态 两 种 。 该 方法 支持 实时 的 消息 认证 ,所 谓 实时 是 指 
当 加 密 完成 时 ,认证 标记 就 产生 了 。 此 外 ,该 方法 还 具有 支持 并 行 计算 等 优点 。 该 方 
法 的 不 足 之 处 在 于 使 用 了 两 个 密 钥 ,这 给 密 钥 的 存储 和 分 发 带 来 了 困难 ;而 且 所 提供 
的 完整 性 服务 仅仅 是 对 加 密 的 一 种 补充 ,如 果 作为 MAC 单独 使 用 , 则 会 造成 计算 资源 
的 浪费 。 


5. OCB 


OCB 是 在 综合 了 PMAC 和 XCBC-MAC 的 构造 方法 的 基础 上 提出 来 的 , 它 同 时 提 
供 了 加 密 和 认证 。 从 构造 方法 上 可 以 看 出 它 与 PMAC 有 一 定 的 渊源, 区别 在 于 OCB 同 
时 提供 加 密 和 认证 ,而 PMAC 仅仅 提供 认证 。OCB 的 优点 包括 它 能 处 理 任意 长 度 的 消 
息 , 运 算 速 度 快 ,并 且 支 持 并 行 处 理 。 该 模式 在 同时 需要 保证 消息 的 私密 性 和 完整 性 的 
情况 下 适用 ,例如 可 以 用 在 SSL 和 SSH 协议 中 以 取代 当前 使 用 的 组 合算 法 。OCB 的 缺 
点 在 于 算法 复杂 且 不 能 免费 使 用 。 


3.3 数字 签名 技术 


3.3.1 基本 概念 


数字 签名 (digital signature, 又 称 公 钥 数字 签名 .电子 签 章 ) 是 一 种 类 似 写 在 纸 上 的 
普通 的 物理 签名 ,但 是 它 使 用 了 公 钥 加 密 领 域 的 技术 实现 ,是 一 种 用 于 鉴别 数字 信息 的 
方法 。 一 套数 字 签 名 通常 定义 为 两 种 互补 的 运算 : 一 种 用 于 签名 , 另 一 种 用 于 验证 。 数 
字 签 名 不 是 指 将 签字 者 的 签名 扫描 成 数字 图 像 ,或 者 用 触摸 板 获取 的 签名 ,更 不 是 签字 
者 的 落款 。 

经 过 数字 签名 的 文件 的 完整 性 是 很 容易 验证 的 (不 需要 骑 缝 章 、 骑 缝 签名 ,也 不 需要 
笔迹 专家 ) ,而 且 数 字 签 名 具有 不 可 抵赖 性 (不 需要 笔迹 专家 来 验证 ) 。 

简单 地 说 ,所 谓 数字 签名 就 是 附加 在 数据 单元 上 的 一 些 数据 ,或 是 对 数据 单元 所 
作 的 密码 变换 。 这 种 数据 或 变换 允许 数据 单元 的 接收 者 用 以 确认 数据 单元 的 来 源 和 
数据 单元 的 完整 性 并 保护 数据 ,防止 被 人 (例如 接收 者 ) 伪 造 。 它 是 对 电子 形式 的 消息 
进行 签名 的 一 种 方法 ,一 个 签名 消息 能 在 一 个 通信 网 络 中 传输 。 显 然 , 数 字 签 名 的 应 
用 涉及 法 律 问题 ,美国 联邦 政府 基于 有 限 域 上 的 离散 对 数 问 题 制定 了 自己 的 数字 签名 
标准 (DSS) 。 

数字 签名 技术 是 不 对 称 加 密 算 法 的 典型 应 用 。 数 字 签 名 的 应 用 过 程 是 ,数据 源 发 送 
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方 使 用 自己 的 私 钥 对 数据 校 验 和 或 其 他 与 数据 内 容 有 关 的 变量 进行 加 密 处 理 ,完成 对 数 
据 的 合法 “签名 ”, 数 据 接收 方 则 利用 对 方 的 公 钥 来 解读 收 到 的 “数字 签名 ”, 并 将 解读 结 
果 用 于 对 数据 完整 性 的 检验 ,以 确认 签名 的 合法 性 。 数 字 签 名 技术 是 一 种 在 网 络 系统 虚 
拟 环境 中 确认 身份 的 重要 技术 ,完全 可 以 代替 现实 过 程 中 的 “亲笔 签字 ”, 在 技术 和 法 律 
上 有 保证 。 在 数字 签名 应 用 中 ,发 送 者 的 公 钥 可 以 很 方便 地 得 到 ,但 其 私 钥 则 需要 严格 


3.3.2 常用 的 数字 签名 体制 


基于 公 钥 密码 体制 和 私 钥 密码 体制 都 可 以 获得 数字 签名 ,目前 主要 是 基于 公 钥 密码 
体制 的 数字 签名 。 包 括 普通 数字 签名 和 特殊 数字 签名 。 普 通 数字 签名 算法 有 RSA, 
DSS, ElGamal, Fiat-Shamir, Guillou-Quisquarter, Schnorr, Ong-Schnorr-Shamir 数字 签 
名 算法 `.DES/DSA、 椭 圆 曲 线 数 字 签 名 算法 和 有 限 自 动机 数字 签名 算法 等 。 特 殊 数 字 签 
名 有 盲 签名、 代理 签名 、 群 签名 \ 不 可 否认 签名 ,公平 育 签名 ,门限 签名 、 具 有 消息 恢复 功 
能 的 签名 等 , 它 与 具体 应 用 环境 密切 相关 。 

RSA 算法 在 第 2 章 中 已 经 介绍 ,在 此 就 不 再 袭 述 。 下 面 详细 介绍 DSS 和 DSA 算 
法 。DSS 最 初 提出 于 1991 年 ,1993 年 根据 公众 对 安全 性 的 反馈 意见 进行 了 一 些 修改 ， 
2000 年 发 布 了 该 标准 的 扩充 版 , 即 FIP 186-2。 其 最 新 版 本 还 包括 基于 RSA RUPEE h R 
密码 的 数字 签名 算法 。 

DSS 使 用 的 是 只 提供 数字 签名 的 算法 ,与 RSA 不 同 ,DSS 是 一 种 公 钥 方法 ,但 不 能 
用 于 加 密 或 密 钥 分 配 。 图 3-11 对 用 DSS 数字 签名 和 RSA 产生 的 数字 签名 这 两 种 方法 
进行 了 对 比 ,在 RSA 方法 中 ,Hash 函数 的 输入 是 要 签名 的 消息 ,输出 是 定 长 的 Hash fib. 
用 发 送 方 的 私 钥 对 该 Hash 码 加 密 形 成 签名 ,然后 发 送 消息 及 签名 ,接收 方 用 发 送 方 的 公 
钥 对 签名 进行 解密 ,如 果 计 算出 的 Hash 码 与 解密 出 的 结果 相同 , 则 认为 签名 是 有 效 的 。 
因为 只 有 发 送 方 拥 有 私 钥 ,因此 只 有 发 送 方 能 够 产生 有 效 的 签名 。 


M I—- m AH 
“| 国 e h 
| 1 d 
H [H E Ealan Te 
(a) RSA 方 法 


(b) DSS 方法 
图 3-11 两 种 数字 签名 方法 
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DSS 方法 也 是 用 Hash 函数 , 它 产 生 的 Hash 值 和 为 此 次 签名 而 产生 的 随机 数 一 
起 作为 签名 函数 的 输入 ,签名 函数 依赖 于 发 送 方 的 私 钥 (KRA) 和 一 组 参数 ,这 些 参 数 为 
通信 多 方 所 共有 ,可 以 认为 这 组 参数 构成 了 全 局 公 钥 (KUA)。 签 名 由 两 部 分 组 成 ,分 别 
记 为 * Mr. 

接收 方 对 接收 到 的 消息 产生 Hash 码 , 这 个 Hash 码 和 签名 一 起 作为 验证 函数 的 输 
入 ,验证 函数 依赖 于 全 局 公 钥 和 发 送 方 公 钥 , 若 验证 函数 的 输出 等 于 签名 中 的 成分, 则 
签名 是 有 效 的 。 签 名 函数 保证 只 有 拥有 私 钥 的 发 送 方才 能 产生 有 效 签 名 。 

DSA 建立 在 求 离散 对 数 的 困难 性 以 及 ElGamal 和 Schnorr 最 初 提出 的 方法 之 上 。 
图 3-12 归纳 总 结 了 DSA 算法 ,其 中 有 三 个 公开 参数 为 一 组 用 户 所 共用 。 选 择 一 个 
160 位 的 素数 g, 然 后 选择 一 个 长 度 在 512—1024 之 间 , 且 满足 g 能 整除 (p 一 1) 的 素数 p, 
Ti i EJEA h^" mod p 的 g, 其 路 是 1 到 pp 一 1 之 间 的 整数 , 且 g 大 于 1。 


其 idi 310 rt Sm 4 
DR rea se HOD) mod q 
4g 是 (p-1) 的 素 因 子 ， 其 中 219<g<21%, 即 Ean) 
位 长 为 160 位 
g=hP- Imod p, 其 中 满足 1<h<(p-1) 验证 
并 且 g=h” mod p>1 w-(s')"!mod q 
uj7[H(M')w]mod q 
用 户 的 私 钥 u;7(r'w)mod q 
* 为 随机 或 伪 随机 整数 且 0<x<q v-[(g^y":)mod p]mod q 
检验 : vsr 
用 户 的 公 向 M: 要 签名 的 消息 
ugmedp MM) 使 用 SHA-1 计 算 的 M 的 Hash 什 
M, r,s 接收 到 的 M, ms 
与 用 户 每 条 消息 相关 的 秘密 值 
A 为 随机 或 伪 随 机 整数 且 0<k<q 
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选 定 这 些 参数 后 ,每 个 用 户 选 择 私 钥 并 产生 公 钥 。 私 钥 x 必须 是 随机 或 伪 随 机 选择 
的 介 于 1 到 g 一 1 之 间 的 数 ,可 通过 y= g mod p 计算 得 到 公 钥 。 由 给 定 的 xz 计算 y 比较 
简单 ,而 由 给 定 的 y TRE x 则 在 计算 上 不 可 行 ,这 就 是 求 y 的 以 g 为 底 的 模 p 的 离散 
对 数 。 

要 进行 签名 ,用 户 需 计算 两 个 量 r 和 s,r As 是 公 钥 (p,q,g)、 用 户 私 钥 (x)、 消 息 的 
Hash 码 HOM) 和 附加 整数 & 的 函数 ,其 中 ,& 是 随机 或 伪 随 机 产生 的 , 且 & 对 每 次 签名 是 
唯一 的 。 

图 3-13 更 加 详细 地 描述 了 上 述 签名 和 验证 函数 。 该 算法 的 特点 为 : 接收 端的 验证 
依赖 于 ,但 是 -~ 却 根本 不 依赖 于 消息 , 它 是 上 & 和 全 局 公 钥 的 函数 。& 模 p 的 乘法 逆 元 传 
给 函数 f1 ,fi 的 输入 还 包含 消息 Hash 值 和 用 户 私 钥 。 函 数 的 这 种 结构 使 接收 方 可 利用 
其 收 到 的 消息 和 签名 、 它 的 公 钥 以 及 全 局 密 钥 来 恢复 ~。 
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s-f UM), k, x, r, q) 
k x4 -(k (I(My*xr))mod q 
i i r-fXk, p, q, 8) 


M 本 四 h | =(g*mod p)mod q 


(a) 签名 

M =| H »q&g 
|i | | w-fis', q)-(') mod q 
= " 
y ps fi vf io, q, g, HM), w, r’) 
n f li (ig P mod q y prwmod q) 

d À mod p|mod q 

比较 

(b) 验证 


图 3-13 DSS 签名 和 验证 


3.3.3 言 签 名 和 群 签名 


1. 盲 签名 


育 签 名 的 思想 最 早 在 1982 年 提出 。 育 签名 因为 具有 盲 性 这 一 特点 ,可 以 有 效 保护 
所 签署 消息 的 具体 内 容 , 所 以 在 电子 商务 和 电子 选举 等 领域 有 着 广泛 的 应 用 。 

盲 签名 允许 使 用 者 先 将 消息 盲 化 ,而 后 让 签名 者 对 盲 化 的 消息 进行 签名 ,最 后 消息 
拥有 者 对 签名 除去 盲 因 子 ,得 到 签名 者 关于 原 消息 的 签名 。 盲 签名 就 是 接收 者 在 不 让 签 
名 者 获取 所 签署 消息 具体 内 容 的 情况 下 所 采取 的 一 种 特殊 的 数字 签名 技术 , 它 除了 满足 
一 般 的 数字 签名 条 件 外 ,还 必须 满足 下 面 的 两 条 性 质 : 

(1) 签名 者 对 其 所 签署 的 消息 是 不 可 见 的 , 即 签名 者 不 知道 他 所 签署 消息 的 具体 
内 容 。 
(2) 签名 消息 不 可 追踪 , 即 当 签 名 消息 被 公布 后 ,签名 者 无 法 知道 这 是 他 哪 次 签 
署 的 。 

曾经 有 人 对 盲 签名 给 出 了 一 个 非常 直观 的 说 明 : 所 谓 盲 签名 ,就 是 先 将 隐蔽 的 文件 
放 进 信封 里 ,而 除去 盲 因 子 的 过 程 就 是 打开 这 个 信封 , 当 文 件 在 一 个 信封 中 时 ,任何 人 不 
能 读 它 。 对 文件 签名 就 是 通过 在 信封 里 放 一 张 复写 纸 , 签 名 者 在 信封 上 签名 时 ,他 的 签 
名 便 透 过 复写 纸 签到 文件 上 。 

一 般 来 说 ,一 个 好 的 盲 签名 应 该 具有 以 下 的 性 质 ， 

CD 不 可 伪造 性 。 除 了 签名 者 本 人 外 ,任何 人 都 不 能 以 他 的 名 义 生成 有 效 的 盲 签名 ， 
这 是 一 条 最 基本 的 性 质 。 

(2) 不 可 抵赖 性 。 签 名 者 一 旦 签署 了 某 个 消息 ,就 无 法 否认 自己 对 消息 的 签名 。 


a Qiasssunsna 


CD 盲 性 。 签 名 者 虽然 对 某 个 消息 进行 了 签名 ,但 他 不 可 能 得 到 消息 的 具体 内 容 。 

(4) 不 可 跟踪 性 。 一 旦 消息 的 签名 公开 后 ,签名 者 不 能 确定 自己 是 在 何 时 签署 的 这 
条 消息 。 

满足 上 面 几 条 性 质 的 盲 签名 ,被 认为 是 安全 的 。 这 四 条 性 质 既 是 设计 育 签 名 所 应 遵 
循 的 标准 ,又 是 判断 讶 签名 性 能 优 劣 的 根据 。 

另外 ,方案 的 可 操作 性 和 实现 的 效率 也 是 设计 盲 签 名 时 必须 考虑 的 重要 因素 。 一 个 
盲 签 名 的 可 操作 性 和 实现 速度 取决 于 以 下 几 个 方面 

(D 密 钥 的 长 度 ; 

O 盲 签名 的 长 度 ; 

@ 盲 签名 的 算法 和 验证 算法 。 


2. 群 签名 


群 签名 (group signature) 是 在 1991 年 由 Chaum 和 Van Heyst 首次 提出 的 一 个 签名 
HE. Camenish, Stadler, Tsudik 等 对 这 个 概念 进行 了 修改 和 完善 。 群 签名 在 管理 军 
事 ,政治 及 经 济 等 多 个 方面 有 着 广泛 的 应 用 。 

群 签名 就 是 满足 这 样 要 求 的 签名 : 在 一 个 群 签名 方案 中 ,一 个 群体 中 的 任意 一 个 成 
员 可 以 以 匿名 的 方式 代表 整个 群体 对 消息 进行 签名 。 与 其 他 数字 签名 一 样 , 群 签名 是 可 
以 公开 验证 的 ,而 且 可 以 只 用 单个 群 公 钥 来 验证 。 也 可 以 作为 群 标志 来 展示 群 的 主要 用 

群 签名 技术 主要 经 历 了 以 下 几 个 发 展 阶 段 。 

(1) 1991—1995 年 : 在 这 段 时 间 内 ,除了 Chaum 和 Van Heyst 给 出 的 定义 和 四 个 实 
现 群 签名 的 方案 外 ,主要 是 Chen 和 Pedersen 的 工作 。Chen 和 Pedersen 提出 了 几 个 新 
的 群 签名 方案 ,同时 首次 提出 了 允许 群体 增加 新 成 员 的 群 签名 方案 。Camenish 还 对 广 
义 群 签名 进行 了 研究 。 

(2) 1995—1997 年 : 在 经 过 几 年 对 群 签名 的 概念 和 意义 的 认识 和 理解 之 后 ,一 些 密 
码 界 人 士 开始 对 群 签名 技术 进行 研究 。 其 间 除 了 Chen 和 Pedersen 的 工作 外 ,还 有 Park 
等 的 工作 。 在 这 一 阶段 ,对 群 签名 的 研究 不 是 十 分 活跃 ,主要 是 提出 了 一 些 新 的 群 签名 
方案 。 

(3) 1997 年 以 后 : 自从 1997 年 Camenish 和 Stadler 首次 提出 适用 于 大 的 群体 的 群 
签名 方案 以 来 , 群 签名 的 研究 进入 了 一 个 非常 活跃 的 时 期 ,取得 了 大 量 的 研究 成 果 。 这 
些 研究 更 注重 群 签名 的 安全 性 ,效率 和 实用 性 ,同时 也 涉及 多 个 研究 方向 。 这 些 研究 有 
安全 高 效 的 群 签名 方案 的 研究 ,有 和 群 签名 与 通常 的 数字 签名 的 相互 转化 的 研究 ,还 有 和 群 
签名 的 推广 方面 的 研究 , 如 分 级 多 群 签名 (group signatures for hierarchical multi- 
groups) AEA% A (group blind signatures) 、 多 群 签名 (multi-groups signatures) 、 子 群 签 
名 (sub-group signatures) 等 ,而 且 也 取得 了 一 些 在 电子 商务 方面 的 应 用 成 果 。 因 此 
Camenish 和 Stadler 的 研究 成 果 已 经 成 为 群 签名 发 展 史上 的 一 座 里 程 碑 。 

群 签名 有 下 面 几 个 研究 方向 : 

CD 如 何 安全 有 效 地 废除 群 成 员 。 即 如 何 设计 一 个 废除 群 成 员 的 方法 ,使 得 一 个 群 
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成 员 被 删除 后 ,原来 的 私 钥 和 成 员 证 书 不 能 再 用 于 签名 ,而 且 不 影响 他 原来 所 作 的 签名 
的 安全 性 。 现 有 的 群 签名 方案 都 不 能 安全 有 效 地 废除 群 成 员 。 

(2) 如 何 设 计 高 效 的 打开 签名 的 算法 。 即 如 何 使 群 管理 员 不 需要 大 的 计算 量 就 可 以 
打开 签名 而 确定 出 签名 人 的 身份 。 

(3) 寻找 一 些 安全 高 效 的 新 的 群 签名 算法 。 现 有 的 相对 安全 高 效 的 群 签名 方案 基本 
上 都 依赖 于 RSA 签名 体制 .Schnorr 签名 体制 以 及 双重 离散 对 数 、 离 散 对 数 的 方 根 、 有 限 
循环 群 中 元 素 的 表示 , 某 一 秘密 数值 在 一 个 指定 的 区 间 内 的 知识 签名 ,效率 都 不 是 很 高 。 
因此 ,寻求 新 的 安全 高 效 的 群 签名 算法 是 很 有 必要 的 。 

(4) 如 何在 电子 商务 等 领域 更 广泛 地 使 用 群 签名 。 在 现 有 的 文献 中 ,关于 群 签名 在 
电子 商务 领域 的 应 用 还 不 多 见 。 由 于 群 签 名 对 于 签名 人 能 提供 良好 的 匿名 性 ,同时 又 能 
使 群 管理 员 在 必要 的 时 候 可 以 打开 签名 而 撤销 匿名 性 ,所 以 可 以 广泛 地 应 用 于 电子 商务 
中 的 许多 方面 。 只 要 能 找到 高 效 使 用 的 群 签名 算法 , 群 签 名 在 电子 商务 中 的 应 用 必然 会 
走向 实用 。 

(5) 对 于 群 签 名 相关 的 数字 签名 及 其 应 用 的 研究 。 与 群 签 名 相关 的 数字 签名 及 其 应 
用 的 研究 还 不 够 。 分 级 群 签名 、 群 盲 签 名 .多 群 签名 等 都 有 实际 应 用 背景 ,然而 对 它们 的 
研究 才 处 于 起 步 阶 段 。 


3.4 消息 认证 模式 


3.4.1 消息 的 完整 性 与 消息 认证 


消息 完整 性 检验 的 一 般 机 制 如 图 3-14 所 示 。 无 论 是 存储 文件 还 是 传输 文件 ,都 需要 
同时 存储 或 发 送 该 文件 的 数字 指纹 ;验证 时 ,对 于 实际 得 到 的 文件 重新 产生 其 数字 指纹 ， 
青 与 原 数字 指纹 进行 对 比 ,如 果 一 致 , 则 说 明文 件 是 完整 的 , 即 未 被 臭 改 、 删 除 或 插入 , 否 
则 是 不 完整 的 。 


i | i 
生成 数字 指纹 消息 | 数字 指纹 生成 数字 指纹 
判断 是 否 相同 ， 


1 1 
数字 指纹 | 期 望 的 数字 指纹 | 一 | 
1 相同 则 表明 消 


一 一 | 收 到 的 数字 指纹 | 一 | 息 是 完整 的 


图 3-14 消息 完整 性 检验 的 一 般 机 制 


消息 完整 性 检验 只 能 检验 消息 是 否 完整 ,不 能 说 明 消息 是 否 是 伪造 的 。 因 为 一 个 伪 
造 的 消息 与 其 对 应 的 数字 指纹 也 是 匹配 的 。 

消息 认证 是 指使 一 定 的 接收 者 能 够 检验 接收 到 的 消息 是 不 是 真实 的 方法 。 消 息 认 
证 具有 两 层 含义 : 一 是 检验 消息 的 来 源 是 否 真 实 , 即 对 消息 的 发 送 者 的 身份 进行 认证 ;二 
是 检验 消息 的 完整 性 , 即 验 证 消息 在 传送 或 存储 过 程 中 未 被 自 改 、 删 除 或 插入 等 。 
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消息 数字 指纹 的 产生 方法 有 很 多 。 当 需要 进行 消息 认证 时 , 仅 有 消息 作为 输入 是 不 
够 的 ,需要 加 入 密 钥 ,这 就 是 消息 认证 的 原理 。 

消息 认证 码 (Message Authentication Code. MAC) 是 与 密 钥 相关 的 单 向 Hash 函数 。 
MAC 与 单 向 Hash 气 数 不 同 的 是 , 它 还 包括 一 个 密 钥 , 不 同 的 密 钥 会 产生 不 同 的 Hash 
函数 ,这 样 就 能 在 验证 发 送 者 的 消息 是 否 被 自 改 的 同时 ,验证 是 由 谁 发送 的 。MAC 通常 
AUR. 

MAC = Cx (M) 

其 中 ,M 是 长 度 可 变 的 消息 ;K 是 收发 双方 共享 的 密 钥 ; 函数 值 Cx (M) 是 定 长 的 认证 
码 ,也 称 密码 校 验 和 。MAC 是 带 密 钥 的 消息 摘要 函数 , 即 一 种 带 密 钥 的 数字 指纹 , 它 与 
不 带 密 钥 的 数字 指纹 是 有 本 质 区 别 的 。 


1. 消息 认证 


认证 码 被 附加 到 消息 后 以 M] | MAC 方式 一 并 发 送 , 接 收 方 通过 重新 计算 MAC 以 
实现 对 M 的 认证 ,如 图 3-15 所 示 。 


K 
M 一 (| = m C i 


K i 接收 方 
发 送 方 CKM) 
图 3-15 消息 认证 


假定 发 送 方 和 接收 方 共享 一 个 密 钥 K ,如 果 接 收 方 收 到 的 MAC 与 计算 得 出 的 MAC 
一 致 ,那么 可 以 得 出 如 下 结论 : 

CD 接收 方 确信 消息 M 未 被 算 改 。 此 为 完整 性 验证 。 

(2) 接收 方 确信 消息 来 自 所 声称 的 发 送 者 ,因为 没有 其 他 人 知道 这 个 共享 密 钥 ,所 以 
其 他 人 也 就 不 可 能 为 消息 M 附加 合适 MAC。 此 为 消息 源 验证 。 


2. 消息 认证 与 保密 


在 上 述 消息 认证 中 ,消息 是 以 明文 方式 传送 的 ,所 以 这 一 个 过 程 只 提供 认证 而 不 具 
备 保密 性 。 为 提供 保密 性 ,可 在 MAC 函数 以 后 进行 一 次 加 密 , 而 且 加 密 密 钥 需 被 收 、 发 
双方 共享 ,如 图 3-16 所 示 。 发 送 方 发 送 Ex, (CM) | 1Cx, (M))。 这 种 方式 除 具 备 认证 的 


e TETE 


zt En 
{k Ey (DIC QU) i Ek 
发 送 广 cnan 


3-16 消息 认证 与 保密 
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功能 ,还 具有 保密 性 。 
3.4.2 消息 认证 模式 


认证 是 认证 者 对 被 认证 者 的 判定 ,认证 活动 又 称 为 鉴别 ,是 证 明 某 人 或 对 象 身份 的 
过 程 ,是 认证 者 对 被 认证 者 确定 的 过 程 。 鉴 定 是 对 事务 的 提取 与 区 分 ,是 判定 识别 个 体 
的 过 程 ,在 现实 世界 ,可 以 通过 这 个 人 的 生物 特征 或 他 所 拥有 的 某 种 物件 ,将 他 与 其 他 个 
体 区 别 开 来 ,如 DNA 信息 、 虹 膜 、 指 纹 、IC 卡 等 。 例 如 ,我 们 去 乘坐 飞机 时 ,必须 提供 身 
份 证 或 是 驾驶 证 .军人 证 等 进行 自我 证 明 ,这 就 是 鉴定 。 当 公司 的 工作 人 员 上 班 时 ,必须 
使 用 钥匙 或 非 接 触 式 IC 门 卡 才能 打开 门 锁 进 办 公 室 的 门 ,这 是 门 锁 对 公司 成 员 的 认证 ， 
人 们 可 以 使 用 相同 的 钥匙 来 打开 同一 把 锁 (这 就 像 数字 世界 中 使 用 相同 的 用 户 名 和 口 
D) ,但 是 却 不 能 判定 具体 是 由 哪 一 个 公司 成 员 打开 的 门 锁 。 这 就 是 认证 和 鉴定 的 不 同 。 
但 有 时 对 此 区 分 得 并 不 太 严 格 ,通常 都 是 消息 的 接收 者 能 够 确认 消息 的 来 源 或 是 判断 授 
权 用 户 是 否 能 够 访问 网 络 。 

通常 ,可 以 使 用 如 下 三 种 模式 对 网 络 认 证 加 以 保护 : 

(1) 用 户 认 证 : 是 基于 使 用 者 本 身 的 认证 。 

(2) 会 话 认证 : 是 对 于 用 户 访问 服务 权限 的 认证 。 

(3) 客户 认证 : 一 般 基于 源 地 址 而 不 是 基于 用 户 的 访问 授权 的 认证 。 


3.4.3 消息 认证 方式 


消息 内 容 认 证 常用 的 方法 是 : 消息 发 送 者 在 消息 中 加 入 一 个 鉴别 码 (MAC、MDC 
等 ) 并 经 加 密 后 发 送 给 接受 者 (有 时 只 需 加 密 鉴别 码 即 可 )。 接 收 者 利用 约定 的 算法 对 解 
密 后 的 消息 进行 鉴别 运算 ,将 得 到 的 鉴别 码 与 收 到 的 鉴别 码 进 行 比较 , 若 二 者 相等 , 则 接 
收 ,否则 拒绝 接收 。 

消息 认证 常用 的 三 种 方式 为 : 

CD 消息 加 密 : 用 整个 消息 的 密 文 作为 认证 标识 。 

(2) MAC; 一 个 公开 函数 ,加 上 一 个 密 钥 产生 一 个 固定 长 度 的 值 作为 认证 标识 。 

(3) Hash 函数 : 一 个 公开 函数 将 任意 长 度 的 消息 映射 到 一 个 固定 长 度 的 散 列 值 , 作 
为 认证 标识 。 


思 考 题 


3.1 如 何 使 用 高 级 加 密 标 准 (AES) 作 为 安全 Hash 函数 (注意 Hash 函数 不 使 用 密 钥 。 
提示 : 可 借鉴 Tiger 算法 的 外 循环 )? 

3.2 假设 要 加 密 一 个 由 三 块 分 组 明文 PP; 和 P: 组 成 的 消息 ,只 用 Hash 函数 和 一 个 
对 称 密 钥 K ,怎样 对 这 个 消息 进行 加 密 和 解密 ? 

3.3 对 于 除数 为 10011 的 CRC 校 验 , 找 出 数据 11010110, 攻 击 者 想 要 将 数据 改 为 111** 
ex IX HE 表示 对 攻击 者 无 关 紧 要 的 位 。 希望 结果 的 校 验 值 和 原始 数据 的 校 验 值 
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3.4 


一 致 , 找 出 所 有 能 够 选择 的 数据 。 

我 们 称 变换 工 是 增加 的 ,如 果 它 满足 如 下 特性 : 对 M 进行 某 次 T 变换 时 ,对 于 M 

的 变换 所 需要 的 时 间 与 前 面 所 有 对 于 M 的 变换 所 需 的 总 时 间 成 正比 。 假 设 有 一 个 

增加 的 Hash 函数 H. 

CD 给 出 一 种 应 用 ,使 得 增加 的 Hash 函数 五 明显 优 于 一 般 的 ( 非 增加 的 ) Hash 
函数 。 

(2) 假设 消息 M 只 能 通过 附加 更 多 的 位 来 修改 , 即 修改 后 的 消息 M 是 对 于 X 满足 
M' 一 (M,X)。 给 定 一 个 安全 的 Hash 函数 ,使 用 hh 定义 一 种 增加 的 Hash PR 


数 H. 


找 出 下 列 两 条 消息 (表示 为 十 六 进 制 ) 的 所 有 不 同 的 位 ,并 验证 它们 的 MD5 Hash 


值 是 相同 的 : 


dl 31 dd 02 c5 e6 ee c4 
2f ca b5 87 12 46 7e ab 
55 ad 34 06 09 f4 b3 02 
08 51 25 e8 f7 cd c9 9f 
96 Ob 1d dl dc 41 7b 9c 
35 73 9a c7 fo eb fd 0c 
75 27 7f 79 30 d5 5c eb 
ed 74 cb dd 5f c5 d3 6d 


dl 31 dd 02 c5 e6 ee c4 
2f ca b5 07 12 46 7e ab 
55 ad 34 06 09 f4 b3 02 
08 51 25 e8 f7 cd c9 9f 

96 Ob ld dl dc 41 7b 9c 
35 73 9a 47 f0 eb fd 0c 

75 27 7f 79 30 d5 5c eb 
ed 74 cb dd 5f c5 d3 6d 


69 3d 9a 06 98 af f9 5c 
40 04 58 3e b8 fb 7f 89 
83 e4 88 83 25 71 41 5a 
d9 1d bd f2 80 37 3c 5b 
e4 d8 97 f4 5a 65 55 d5 
30 29 f1 66 dl 09 bl 8f 
22 e8 ad ba 79 cc 15 5c 
b1 9b 0a d8 35 cc a7 e3 


69 3d 9a 06 98 af f9 5c 

40 04 58 3e b8 fb 7f 89 

83 e4 88 83 25 f1 41 5a 
d9 1d bd 72 80 37 3c 5b 
e4 d8 97 f4 5a 65 55 d5 
30 29 fl 66 dl 09 bl 8f 
22 e8 ad ba 79 4c 15 5c 
bl 9b 0a 58 35 cc a7 e3 


因为 DSS 对 每 个 签名 产生 一 个 &, 所 以 即使 对 同一 消息 签名 ,在 不 同 的 情况 下 签名 
也 不 同 , 单 RSA 签名 则 不 能 做 到 这 一 点 。 这 种 区 别 有 什么 实际 意义 ? 
可 以 利用 Hash 函数 构造 类 似 DES 结构 的 分 组 密码 。 但 Hash 是 单 向 的 ,而 分 组 密 
码 是 可 道 的 (解密 ) ,那么 如 何 用 Hash 码 构造 上 述 的 分 组 密码 呢 ? 
如 果 用 于 产生 DSA 4409 k 已 被 泄密 , 则 会 出 现 什 么 问题 ? 
在 Diffle-Hellman 算法 的 基础 上 ,设计 可 用 于 数字 签名 的 方法 是 很 有 意义 的 。 下 面 
的 方法 比 DSA 更 简单 , 它 需 要 私 钥 但 不 需要 秘密 的 随机 数 。 
公开 量 : 
q 为 素数 
asa<<q Ha 是 g 的 本 原 根 
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私 钥 : X.X«q 

ANH. Y—a* mod q 

要 对 消息 M 签名 , 则 先 计算 该 消息 的 Hash 85 h=HM). RÆK gcd(h,g 一 1) 二 

1, 若 gcd(h,g 一 1) 不 为 1, 则 将 Hash 码 附 于 消息 后 再 计算 Hash 码 ,继续 该 过 程 直 

至 生成 的 Hash 码 与 (g 一 1) 互 素 , 然 后 计算 Zh— X mod (g 一 1) 的 Z, 并 将 a7 作为 对 

该 消息 的 签名 。 验 证 签名 是 验证 Y= a7) amod q. 

(1) 证 明 该 体制 能 正确 运行 , 即 证明 如 果 签 名 是 有 效 的 ,那么 验证 过 程 中 将 有 上 述 
等 式 成 立 。 

(2) 给 出 一 种 对 给 定 的 消息 伪造 用 户 签名 的 简单 方法 ,以 证 明 这 种 体制 是 不 可 接 


受 的 。 
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D YES Seb o/4 1 
信息 隐藏 与 数字 水 印 


本 章 学 习 目标 

信息 隐藏 与 数字 水 印 是 当前 数字 内 容 安 全 的 热门 技术 之 一 。 本 章 将 介绍 信息 隐藏 
与 数字 水 印 的 基本 原理 ,主要 包括 : 信息 隐藏 与 数字 水 印 技术 的 基本 概念 、 空 域 和 变换 域 
的 信息 隐藏 技术 数字 水 印 技术 以 及 信息 隐藏 与 数字 水 印 的 发 展 与 应 用 等 。 

通过 本 章 的 学 习 , 应 掌握 以 下 内 容 : 

(1) 空域 和 变换 域 信息 隐藏 技术 。 

(2) 数字 水 印 框架 与 评价 指标 。 

(3) 版 权 保 护 与 内 容 认 证 数字 水 印 技术 。 

(4) 可 逆水 印 技术 。 

(5) 信息 隐藏 与 数字 水 印 技术 的 发 展 历程 与 应 用 情况 。 


4.1 基本 概念 


最 早 的 隐 写 术 可 以 追溯 到 远古 年 代 。 

CD 用 头发 掩盖 信息 : 大 约 在 公元 前 440 年 ,为 了 鼓励 奴隶 们 起 来 反抗 ,Histiaus 给 
他 最 信任 的 奴隶 剃头 ,并 将 消息 刺 在 头 上 ,等 到 头发 长 出 来 后 ,消息 被 遮盖 ,这 样 消息 就 
可 以 在 各 个 部 落 中 传递 。 

(2) 使 用 书记 板 隐藏 信息 : 在 波斯 朝廷 的 一 个 希腊 人 Demeratus ,他 要 警告 斯 巴 达 将 
有 一 场 由 波斯 国王 薛 西 斯 一 世 发 动 的 入 侵 , 他 首先 去 掉 书 记 板 上 的 螨 ,然后 将 消息 写 在 
木板 上 ,再 用 蜡 覆 盖 , 这 样 处 理 后 的 书记 板 看 起 来 是 完全 空白 的 。 事 实 上 , 它 几 乎 既 欺 骗 
了 检查 的 士兵 也 欺骗 了 接受 信息 的 人 。 

(3) 使 用 音乐 谱 隐 藏 信息 : Schott(1608 一 1666) 的 400 页 的 著作 Schola Steganogra phica 
中 ,他 阐述 了 如 何在 音乐 乐谱 中 隐藏 消息 : 每 个 音符 对 应 于 一 个 字符 。Bach 提出 了 另 一 
种 基于 音符 的 出 现 次 数 的 方法 。Schott 还 扩展 了 Trithemius (1462 一 1516 ) 在 
Steganogra phice 一 书 (这 是 有 关 这 个 领域 的 最 早 的 一 本 著作 ) 中 提出 的 Ave Maria fij. 
扩展 码 使 用 40 个 表 , 每 个 表 有 24 个 入口 (当时 ,每 个 人 口 对 应 于 字母 表 中 的 一 个 字母 )， 
这 些 入 口 包括 四 种 语言 : 拉丁 文 、 德 文 . 意 大 利文 和 法 文 。 纯 文本 中 的 每 个 字母 ,被 相应 
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入 口内 的 词 或 短语 所 替代 ,最 终 隐 秘 文本 看 上 去 像 是 祈祷 词 或 者 咒语 。 最 近 的 研究 表 
Hj] ,通过 把 这 些 表 对 25 取 模 并 应 用 到 一 个 逆转 的 字母 表 中 ,就 可 以 破译 它们 。 剑 桥 
Trinity 学 院 的 教师 Wilkins(1614 一 1672) 论 述 了 “两 个 音乐 家 能 够 通过 使 用 他 们 的 乐器 
交谈 ,就 像 用 嘴 说 话 一 样 ?是 因为 什么 。 他 还 解释 了 如 何在 几何 图 形 中 通过 使 用 点 、 线 和 
三 角形 来 隐藏 消息 。“ 点 线段 的 终端 和 图 的 角度 ,都 可 以 表示 不 同 的 字母 ”。 

(4) 使 用 离合 诗 隐 藏 信息 。 在 Kahn 的 The Codebreakers 一 书 中 ,他 例 举 了 一 个 修 
道士 是 如 何 写 下 一 本 书 并 把 他 的 心上人 的 名 字 设 为 连续 章节 的 第 一 个 字母 。 他 还 例 举 
了 一 个 战俘 如 何在 寄 回 家 的 信 中 隐藏 消息 ,这 个 战俘 在 IJ.T、F 上 使 用 点 和 虚线 ,用 来 
拼写 一 条 Morse 编码 的 隐 茂 文本。 这些“ 语义 方法 "隐藏 了 消息 ,但 是 却 有 一 个 内 在 的 问 
题 ,掩饰 文本 难于 创建 ,并 且 常 常 听 起 来 很 奇怪 ,这 足以 引起 保密 检查 员 的 注意 。 在 两 次 
世界 大 战 中 ,保密 检查 员 截 获 了 大 量 这 样 的 消息 。 一 个 著名 的 例子 是 : 第 一 次 世界 大 战 
中 ,一 份 海 底 电报 说 “父亲 去 世 了 ”, 保 密 检查 员 将 它 修改 为 “父亲 病 了 ”并 发 送出 去 。 对 
这 份 修改 过 的 电报 回复 泄露 了 秘密 :“ 父 亲 去 世 了 ,还 是 病 了 ?” 

(5) 使 用 微小 图 隐藏 信息 : 在 1857 年 ,Brewster 建议 隐藏 保密 消息 到 “那些 不 超过 
句号 或 者 一 小 滴 墨 水 的 空间 中。 在 1870 一 1871 年 爆发 的 法 国 和 普鲁士 的 战争 中 , 当 巴 
黎 被 围困 时 , 铝 子 带 出 了 隐藏 在 微缩 胶卷 上 的 消息 。 在 1905 年 的 俄国 和 日 本 的 战争 中 ， 
显 微 图 像 被 隐藏 于 耳 杀 .鼻孔 中 ,甚至 指甲 之 下 。 在 第 一 次 世界 大 战 中 ,间谍 们 收发 的 消 
息 通 过 几 次 照相 缩小 成 为 细小 的 点 ,然后 把 这 些 点 粘贴 在 那些 无 关 紧要 的 掩饰 材料 如 杂 
志 中 印刷 的 逗号 之 上 。 

多 媒体 数据 的 数字 化 为 多 媒体 信息 的 存 取 提供 了 极 大 的 便利 ,同时 也 极 大 地 提高 了 
信息 表达 的 效率 和 准确 性 。 随 着 因特网 的 日 益 普及 ,多 媒体 信息 的 交流 已 达到 了 前 所 未 
有 的 深度 和 广度 ,其 发 布 形式 也 愈加 丰富 了 。 人 们 如 今 也 可 以 通过 因特网 发 布 自己 的 作 
品 、 重 要 信息 和 进行 网 络 贸易 等 ,但 是 随 之 而 出 现 的 问题 也 十 分 严重 : 如 作品 侵权 更 加 
容易 , 算 改 也 更 加 方便 。 因 此 如 何 既 充 分 利用 因特网 的 便利 ,又 能 有 效 地 保护 知识 产权 ， 
已 受到 人 们 的 高 度 重视 。 这 标志 着 一 门 新 兴 的 交叉 学 科 一 一 信息 隐藏 学 的 正式 诞生 。 
如 今 信 息 隐 藏 学 作为 隐蔽 通信 和 知识 产权 保护 等 的 主要 手段 , 正 得 到 广泛 的 研究 与 应 
用 。 本 章 从 信息 隐藏 和 数字 水 印 的 基本 原理 、 常 用 模型 入 手 , 然 后 对 这 些 技术 的 应 用 进 
行 详细 的 介绍 。 

信息 隐藏 (information hiding) ,也 叫 数据 隐藏 (data hiding)。 简 单 地 说 ,信息 隐藏 就 
是 将 秘密 信息 隐藏 于 另 一 非 保密 的 载体 之 中 。 这 里 的 载体 可 以 是 图 像 . 音频、 视频 、 文 
本 ,也 可 以 是 信道 ,甚至 是 某 套 编码 体制 或 整个 系统 。 

信息 之 所 以 能 够 隐藏 在 多 媒体 数据 中 主要 是 基于 两 个 事实 。 其 一 ,多 媒体 信息 本 身 
存在 很 大 的 宛 余 性 。 从 信息 论 的 角度 看 ,未 压缩 的 多 媒体 信息 的 编码 效率 是 很 低 的 ,所 
以 将 这 些 机 密 信息 嵌入 到 多 媒体 信息 中 进行 秘密 传送 是 完全 可 行 的 ,并 不 会 影响 到 多 媒 
体 信息 本 身 的 传送 和 使 用 。 其 二 ,人 类 的 听觉 和 视觉 系统 都 有 一 定 的 掩蔽 效应 。 人 们 可 
以 充分 利用 这 种 掩蔽 性 将 信息 隐藏 而 不 被 察觉 。 

信息 隐藏 不 同 于 传统 的 密码 学 技术 。 密 码 技术 主要 是 研究 如 何 将 机 密 信息 进行 特 
殊 的 编码 ,以 形成 不 可 识别 的 密码 形式 ( 密 文 ) 进 行 传递 ;而 信息 隐藏 则 主要 研究 如 何 将 
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某 一 机 密 信息 秘密 隐藏 于 另 一 公开 的 信息 中 ,然后 通过 公开 信息 的 传输 来 传递 机 密 信 
息 。 对 加 密 通 信和 而 言 , 可 能 的 监测 者 或 非法 拦截 者 可 通过 截取 密 文 , 并 对 其 进行 破译 ,或 
将 密 文 进行 破坏 后 再 发 送 , 从 而 影响 机 密 信 息 的 安全 ;但 对 信息 隐藏 而 言 ,可 能 的 监测 者 
或 非法 拦截 者 则 难以 从 公开 信息 中 判断 机 密 信息 是 否 存 在 ,难以 截获 机 密 信息 ,从 而 能 
保证 机 密 信息 的 安全 。 多 媒体 技术 的 广泛 应 用 ,为 信息 隐藏 技术 的 发 展 提供 了 更 加 广阔 
的 领域 。 

随 着 数字 技术 和 Internet 的 发 展 ,各 种 形式 的 多 媒体 数字 作品 (图 像 、 视 频 、 音 频 等 ) 
纷纷 以 网 络 形式 发 表 ,其 版 权 保护 成 为 一 个 迫切 需要 解决 的 问题 。 由 于 数字 水 印 (digital 
watermarking) 是 实现 版 权 保护 的 有 效 办 法 ,因此 如 今 已 成 为 多 媒体 信息 安全 研究 领域 
的 一 个 热点 ,也 是 信息 隐藏 技术 研究 领域 的 重要 分 支 。 该 技术 即 是 通过 在 原始 数据 中 嵌 
一 一 水 印 (watermark) 来 证 实 该 数据 的 所 有 权 。 这 种 被 蔡 入 的 水 印 可 以 是 一 
段 文字 、 标 识 .序列 号 等 ,而 且 这 种 水 印 通常 是 不 可 见 或 不 可 察 的 , 它 与 原始 数据 (如 图 
像 、 音 频 、 视 频数 据 ) 紧 密 结合 并 隐藏 其 中 ,并 可 以 经 历 一 些 不 破坏 原 数 据 使 用 价值 或 商 
用 价值 的 操作 而 能 保存 下 来 。 数 字 水 印 技术 除了 应 具备 信息 隐藏 技术 的 一 般 特点 外 ,还 
有 着 其 固有 的 特点 和 研究 方法 。 在 数字 水 印 系 统 中 ,隐藏 信息 的 丢失 , 即 意味 着 版 权 信 
息 的 丢失 ,从 而 也 就 失去 了 版 权 保护 的 功能 ,也 就 是 说 ,这 一 系统 就 是 失败 的 。 由 此 可 
见 ,数字 水 印 技术 必须 具有 较 强 的 鲁 棒 性 ,安全 性 和 透明 性 。 

下 面 给 出 一 些 基 本 的 定义 。 对 于 通信 的 双方 A 和 B, A 希望 将 秘密 传递 给 B,A 需 
要 从 一 些 随机 消息 源 中 选取 一 个 消息 ,这 个 消息 在 公开 传递 时 不 会 引起 怀疑 ,我 们 称 
为 载体 对 象 。 然 后 把 需要 传递 的 秘密 信息 m 隐藏 到 载体 对 象 h 中 ,这 样 ,载体 对 象 h 就 
变 成 了 伪装 对 象 h"。 伪 装 对 象 和 载体 对 象 在 感官 效果 (包括 视觉 .听觉 等 ) 上 是 不 可 区 分 
的 。 这 样 就 实现 了 信息 的 隐秘 传递 , 它 掩盖 了 信息 传输 的 事实 ,实现 了 信息 的 安全 传递 。 

秘密 信息 在 嵌入 过 程 中 ,可 能 需要 密 钥 ,也 可 能 不 需要 密 钥 。 这 里 ,为 了 区 别 密码 中 
的 密 钥 ,信息 隐藏 的 密 钥 通常 称 为 伪装 密 钥 。 

图 4-1 即 为 信息 隐藏 的 原理 框图 。A 首先 从 载体 信息 源 中 选择 一 个 载体 信号 ,采用 
信息 嵌入 算法 将 密码 信息 痉 嵌 入 载体 信号 中 ,嵌入 算法 可 能 会 用 到 密 钥 。 嵌 入 了 信息 的 
载体 通过 公开 信道 传递 给 B。 用 户 B 接收 到 信息 后 ,由 于 他 知道 A 使 用 的 嵌入 算法 和 嵌 
入 密 钥 ,他 可 以 利用 相应 的 提取 算法 将 隐藏 在 载体 中 的 秘密 信息 提取 出 来 。 提 出 过 程 中 
可 能 需要 (或 不 需要 ) 原 始 载体 对 象 /, 这 取决 于 具体 所 使 用 的 信息 嵌入 算法 。 


载体 信息 源 
tibt RU 
Dru ur B 
A treu Ak | 一 一 | 不 安全 信道 | -~| 信息 提取 算法 | -一 
秘密 消息 m i | 秘密 消息 m 


图 4-1 信息 隐藏 原理 框图 


根据 信息 隐藏 技术 的 应 用 目的 和 载体 对 象 不 同 , 信 息 隐藏 可 分 为 许多 分 支 。 下 面 对 
几 个 主要 分 支 隐 写 术 ,数字 水 印 、 羡 下 信道 作 简单 介绍 。 
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CD 隐 写 术 。 隐 写 术 (steganogeaphy) 这 个 术语 来 自 希 腊 词 汇 steganos 和 graphia. 
前 者 的 含义 是 “秘密 的 ”, 后 者 的 含义 是 “书写 ”。 隐 写 术 是 一 种 隐蔽 通信 技术 ,其 主要 目 
的 是 将 重要 的 信息 隐藏 起 来 ,以 便 不 引起 人 注意 地 进行 传输 和 存储 。 隐 写 术 在 其 发 展 过 
程 中 逐渐 形成 了 两 大 分 支 , 即 语义 隐 写 和 技术 隐 写 。 

语义 隐 写 术 利用 了 语言 文字 自身 及 其 修辞 方面 的 知识 和 技巧 ,通过 对 原文 按照 一 定 
规则 进行 重新 排列 或 剪裁 ,从 而 隐藏 和 提取 密 文 。 语 义 隐 写 术 包括 符号 码 、 隐 语 以 及 虚 
字 密 码 等 。 所 谓 符号 码 是 指 一 次 非 书面 形式 的 秘密 通信 。 例 如 ,第 二 次 世界 大 战 中 ,有 
人 曾经 利用 一 幅 关 于 圣安东尼奥 河 的 画 传递 了 一 封 密 信 。 画 中 的 圣安东尼奥 河畔 长 了 
许多 小 草 ,而 小 草 的 叶子 的 长 短 是 根据 一 种 编码 画 出 来 的 。 长 叶 代 表 莫 尔 斯 电码 的 划 
线 , 短 叶 代表 莫 尔 斯 电码 的 圆 点 。 得 到 这 幅 画 的 人 利用 电码 本 很 容易 就 得 到 了 信和 的 内 
容 。 这 是 符号 码 成 功 应 用 的 一 个 典范 。 另 一 个 例子 是 ,在 第 二 次 世界 大 战 中 ,检查 者 截 
获 了 一 批 手表 ,由 于 担心 手表 的 指针 位 置 会 拼 出 一 条 秘密 消息 ,他 们 在 检查 过 程 中 对 指 
针 的 位 置 进行 了 调整 。 这 种 利用 手表 指针 位 置 传递 秘密 消息 也 属于 符号 码 类 型 的 语义 
隐 写 术 。 需 要 注意 的 是 ,符号 码 的 结果 不 能 影响 载体 的 特征 ,例如 上 述 画 中 的 草 叶 的 形 
状 和 分 布 必须 符合 常规 ,否则 就 是 隐 写 失败 。 隐 语 所 利用 的 是 错觉 或 代码 字 。 在 第 一 次 
世界 大 战 中 ,德国 间谍 曾 使 用 雪茄 的 假定 订单 来 代表 不 同类 型 的 英国 军舰 一 一 巡洋舰 和 
了 驱逐舰 ,例如 朴 芯 茅 斯 需要 5000 根 雪 茄 就 代表 着 朴 茨 茅 斯 有 5 条 巡洋舰 。 另 外 ,在 第 二 
次 世界 大 战 期 间 ,一 个 名 叫 Valer Dickinson 的 妇女 使 用 玩偶 作为 代码 字 表 示 美 国 在 纽约 
的 船只 数目 来 向 日 本 发 送信 息 ,她 是 用 小 玩偶 代表 驱逐 舰 ,而 用 大 玩偶 代表 航空 母 舰 或 
战舰 。 在 虚 字 密码 中 通常 是 使 用 每 个 单词 的 相同 位 置 的 字母 来 拼 出 一 条 消息 。 但 是 这 
样 的 载体 消息 非常 难以 构造 。 我 国 古 代 经 常 出 现 的 “* 藏 头 诗 ”就 是 一 种 典型 的 虚 字 密码 

技术 隐 写 术 是 隐 写 术 中 的 主要 分 支 。 毫 无 疑问 ,技术 隐 写 术 的 发 展 是 伴随 着 科技 ， 
尤其 是 信息 科技 的 发 展 而 发 展 的 。 从 古代 的 利用 动物 的 身体 记载 .木片 上 打 蜡 ,到 近代 
使 用 的 隐形 墨水 、 缩 微 胶片 ,再 到 当代 使 用 的 扩 频 通信 、 网 络 多 媒体 数据 隐 写 等 ,可 以 说 
每 一 种 新 隐 写 术 的 出 现 都 离 不 开 科 学 技术 的 进步 。 当 代 出 现 的 与 数字 载体 有 关 的 隐 写 
术 都 可 以 借鉴 到 数字 水 印 的 技术 领域 , 故 在 此 不 做 展开 。 

(2) 数字 水 印 。 数 字 水 印 技术 是 信息 隐藏 技术 的 另 一 重要 分 支 ,其 基本 思想 是 在 数 
字 作 品 (图 像 、 音 频 、 视 频 等 ) 中 嵌入 秘密 信息 ,以 便 保护 数字 产品 的 版 权证 明 产 品 的 真 
实 可 靠 性 、 跟 踪 盗 版 行为 或 提供 产品 的 附加 信息 。 其 中 的 秘密 信息 可 以 是 版 权 标 志 、 用 
户 序列 号 或 者 产品 相关 信息 。 数 字 水 印 是 本 章 讨论 的 重点 ,留待 后 面 详细 介绍 ,这 里 简 
单 说 明 一 下 数字 水 印 与 隐 写 术 的 区 别 。 

隐 写 术 和 数字 水 印 的 基本 思想 都 是 将 秘密 信息 隐藏 在 载体 对 象 中 。 但 是 两 者 之 间 
还 是 有 本 质 的 不 同 的 。 在 隐 写 术 应 用 中 ,所 要 发 送 的 秘密 信息 是 主体 ,是 重点 保护 对 象 ， 
而 用 什么 载体 对 对 象 进行 传输 无 关 紧 要 。 对 于 数字 水 印 来 说 ,载体 通常 是 数字 产品 ,是 
版 权 保护 对 象 ,而 所 嵌入 的 信息 则 是 与 该 产品 相关 的 版 权 标志 或 相关 信息 。 

(3) 隐藏 信道。 隐藏 信道 是 指 人 允许 进 程 以 危害 系统 安全 策略 的 方式 传输 信息 的 通信 
信道 。 我 国 的 《计算 机 信息 系统 安全 保护 等 级 划分 准则 》(GB 17859—1999) .美国 的 《可 
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信 计 算 机 系统 评估 准则 ?CTCSEC) 以 及 国际 标准 化 组 织 ISO 在 1999 年 发 布 的 《信息 技术 
安全 评估 通用 准则 》(ISO/IEC 15408 ,简称 CC 标准 ) 都 对 隐蔽 信道 分 析 提 出 了 明确 的 规 
定 。 要 求 高 等 级 信息 系统 (GB 17859 一 1999 第 四 级 ,TCSEC 中 B2 级 以 上 ) 必 须 进 行 隐 
蔽 信道 分 析 , 在 识别 隐蔽 信道 的 基础 上 ,对 隐蔽 信道 进行 度量 和 处 置 。 

隐蔽 信道 的 概念 最 初 是 由 Lampson 在 1973 年 提出 的 ,其 给 出 的 隐蔽 信道 定义 为 ， 
不 是 被 设计 或 本 意 不 是 用 来 传输 信息 的 通信 信道 。Lampson 关注 程序 的 限制 问题 , 即 如 
何在 程序 的 执行 过 程 中 进行 限制 ,使 其 不 能 向 其 他 未 授权 的 程序 传输 信息 。 他 列举 了 恶 
意 或 行为 不 当 的 程序 绕 过 限制 措施 ,泄露 数据 的 6 种 方法 和 相应 的 处 理 措施 ,并 把 这 些 
方法 归纳 为 3 种 类 型 : 存储 信道 .合法 信道 和 隐蔽 信道 。 后续 的 研究 将 隐蔽 信道 重新 划 
分 为 两 种 类 型 : 存储 隐蔽 信道 和 时 间 隐 蔽 信道 ,统称 隐蔽 信道 。 其 中 ,时 间 隐 项 信道 对 应 
于 Lampson 所 指 的 “隐蔽 信道 ;合法 信道 则 是 一 种 阔 下 信道 Csubliminal channel) ,是 公 
开 信 道中 所 建立 的 一 种 实现 隐蔽 通信 的 方式 。 信 道中 公开 的 \ 有 意义 的 信息 仅仅 充当 了 
秘密 信息 的 载体 ,秘密 信息 通过 它 进行 传输 。 这 种 隐蔽 传输 信息 的 方式 后 来 逐渐 淡出 了 
隐蔽 信道 研究 的 中 心 ,形成 了 相对 独立 的 研究 领域 。 

隐蔽 信道 分 析 工 作 包括 信道 识别 .度量 和 处 置 。 信 道 识 别 是 对 系统 的 静态 分 析 , 强 
调 对 设计 和 代码 进行 分 析 发 现 所 有 潜在 的 隐蔽 信道 。 信 道 度量 是 对 信道 传输 能 力 和 威 
胁 程 度 的 评价 。 信 道 处 置 措施 包括 信道 消除 限制 和 审计 。 隐 项 信道 消除 措施 包括 修改 
系统 .排除 产生 隐蔽 信道 的 源头 、 破 坏 信 道 的 存在 条 件 。 限 制 措施 要 求 将 信道 危害 降低 
到 系统 能 够 容忍 的 范围 内 。 但 是 ,并 非 所 有 的 潜在 隐蔽 信道 都 能 被 和 人 侵 者 实际 利用 ,如 
果 对 所 有 的 潜在 隐蔽 信道 进行 度量 和 处 置 会 产生 不 必要 的 性 能 消耗 ,降低 系统 效率 。 隐 上 
项 信道 检测 则 强调 对 潜在 隐蔽 信道 的 相关 操作 进行 监测 和 记录 ,通过 分 析 记 录 ,检测 出 
入 侵 者 对 信道 的 实际 使 用 操作 ,为 信道 度量 和 处 置 提供 依据 。 

(4) 阀 下 信道 。 阔 下 信道 是 指 在 基于 公 钥 密码 技术 的 数字 签名 .认证 等 应 用 密码 体 
制 的 输出 密码 数据 中 建立 起 来 的 一 种 隐蔽 信道 , 除 指定 的 接收 者 外 ,任何 其 他 人 均 不 知 
道 密码 数据 中 是 否 有 辣 下 消息 存在 。 

Gustavus Simmons 发 明了 传统 数字 签名 算法 中 闽 下 信道 的 概念 。 由 于 阔 下 信道 隐 
藏 在 看 似 正常 的 数字 签名 的 文本 中 ,所 以 这 是 一 种 迷惑 人 的 信息 传递 。 事实 上 , 阅 下 信 
道 签名 算法 与 通常 的 签名 算法 区 别 不 开 , 至 少 对 Walter 是 这 样 , Walter 不 仅 读 不 出 阅 下 
信道 消息 ,而 且 他 也 不 知道 阐 下 信道 已 经 出 现 。 

1983 年 ,Simmons 把 隐蔽 通信 问题 表述 为 “囚犯 问题 ”, 如 图 4-2 所 示 。 在 该 模型 中 ， 

PELLE 


Alike | Bob 
(囚犯 ) 一 - -一 (囚犯 ) 


Willie 
(警察 ) 


图 4-2 “囚犯 问题 "模型 
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囚犯 Alice 和 Bob 被 关押 在 监狱 的 不 同 牢 房 里 ,他 们 准备 越狱 , 故 需 通过 一 种 隐蔽 的 方式 
交换 信息 ,但 他 们 之 间 的 通信 必须 通过 狱警 Willie 的 检查 。 因 此 ,他 们 必须 找到 一 种 办 
法 ,可 以 将 秘密 的 信息 隐藏 在 普通 的 信息 里 。 

囚犯 问题 根据 Willie 的 反应 方式 分 为 被 动 狱警 问题 .主动 狱警 问题 及 恶意 狱警 问题 
3 种 。 
CD 被 动 狱警 问题 : 狱警 Willie 只 检查 他 们 之 间 传 递 的 信息 有 没有 可 疑 的 地 方 ,一 旦 
发 现 有 可 疑 信息 甚至 是 非法 信息 通过 ,就 会 立即 做 出 相应 的 反应 。 

@ 主动 狱警 问题 : 狱警 Willie 在 不 破坏 公开 信息 的 前 提 下 ,故意 去 修改 一 些 可 能 隐 
藏 有 机 密 信息 的 地 方 ,以 达到 破坏 可 能 的 机 密 信息 的 目的 。 例 如 ,对 于 文本 数据 ,他 可 能 
会 把 其 中 一 些 词句 用 相近 的 同义词 来 代替 ,而 不 改变 通信 内 容 。 

O 恶意 狱警 问题 : 狱警 Willie 可 能 彻底 改变 通信 囚犯 的 信息 ,或 者 伪装 成 一 个 办 
犯 ,隐藏 伪造 的 机 密 信息 ,发 给 另外 的 囚犯 。 在 这 种 条 件 下 ,囚犯 可 能 就 会 上 当 , 他 的 真 
实 想法 就 会 暴露 无 遗 。 对 这 种 情况 ,囚犯 是 无 能 为 力 的 。 不 过 现实 生活 中 ,这 种 恶意 破 
坏 通信 内 容 的 行为 一 般 是 不 允许 的 ,有 诱骗 嫌疑 。 目 前 的 研究 工作 重点 是 针对 主动 狱警 
问题 。 

一 个 简单 的 阔 下 信道 可 以 是 句子 中 单词 的 数目 。 句 子 中 奇数 个 单词 对 应 1 ,而 偶数 
个 单词 对 应 0。 因 此 , 当 读 这 种 仿佛 无 关 紧 要 的 句子 时 ,已 经 将 信息 1010 传递 给 了 自己 
的 接收 人 员 。 不 过 这 个 例子 的 问题 在 于 它 没有 密 钥 ,安全 性 完全 依赖 于 算法 的 保密 性 。 


4.2 信息 隐藏 技术 


4.2.1 信息 隐藏 技术 的 发 展 历程 


1992 年 ,国际 上 正式 提出 信息 隐藏 的 概念 ;1996 年 ,在 英国 剑桥 大 学 牛顿 研究 所 召 

开 了 第 一 届 信 息 隐 藏 学 术 会 议 , 标 志 着 信息 隐藏 学 的 正式 诞生 。 此 后 ,国际 信息 隐藏 学 
会 议 在 欧美 各 国 相继 召开 ,至 今 已 举办 十 三 届 之 多 。 

作为 隐秘 通信 和 知识 产权 保护 等 的 主要 手段 ,信息 隐藏 从 正式 提出 到 现在 二 十 年 的 
时 间 里 引起 了 各 国政 府 、 大 学 和 研究 机 构 的 重视 ,取得 了 巨大 的 发 展 。 美国 的 麻 省 理工 
学 院 、 普 渡 大 学 ,英国 的 剑桥 大 学 `NEC 研究 所 、IBM 研究 所 都 进行 了 大 量 的 研究 。 在 国 
内 ,许多 高 等 院 校 和 研究 机 构 也 对 信息 隐藏 技术 进行 了 深入 的 研究 。 从 1999 年 开始 ,我 
国 已 召开 了 九 届 全 国 性 的 信息 隐藏 暨 多 媒体 内 容 安 全 学 术 大 会 。 国 家 863 计划 智能 计 
算 机 专家 组 会 同 中 国 科学 院 自动 化 研究 所 模式 识别 国家 重点 实验 室 和 北京 邮电 大 学 信 
息 安全 中 心 还 召开 了 专门 的 “数字 水 印 学 术 研讨 会 ”。 

随 着 理论 研究 的 进行 ,相关 的 应 用 技术 和 软件 也 不 断 推出 。 如 美国 Digimarc 公司 在 
1995 年 开发 了 水 印 制 作 技 术 , 是 当时 世界 上 唯一 一 家 拥有 这 一 技术 的 公司 ,并 在 
Photoshop 4. 0 和 CoreDraw 7.0 中 进行 了 应 用 。 日 本 电器 公司 .日 立 制 作 所 、 先 锋 、 索 尼 
和 IBM 公司 在 1999 年 宣布 联合 开发 统一 标准 的 基于 数字 水 印 技术 的 DVD 影碟 防盗 版 
TUR. DVD 影碟 在 理论 上 可 以 无 限制 地 复制 高 质量 的 画面 和 声音 ,因此 人 迫切 需要 有 效 
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的 防盗 版 技术 。 该 技术 的 应 用 使 消费 者 可 以 复制 高 质量 的 动态 图 像 ,但 以 赢利 为 目的 的 
大 批量 非法 复制 则 无 法 进行 。2000 年 ,德国 在 数字 水 印 保 护 和 防止 伪造 电子 照片 的 技术 
方面 取得 了 突破 。 以 制作 个 人 身份 证 为 例 , 一 般 要 经 过 扫描 照片 和 签名 .输入 制 证 机 、 打 

上 述 新 技术 是 在 打印 证 件 前 ,在 照片 上 附加 一 个 暗藏 的 数字 水 印 。 具 体 做 法 是 在 照 
片上 对 某 些 不 为 人 注意 的 部 分 进行 改动 ,处 理 后 的 照片 用 肉眼 看 与 原来 几乎 一 样 ,只 有 
用 专用 的 扫描 器 才能 发 现 水 印 , 从 而 可 以 迅速 ,无 误 地 确定 证 件 的 真 伪 。 该 系统 既 可 在 
照片 上 加 上 牢固 的 水 印 ,也 可 以 经 改动 使 水 印 消失 ,使 任何 伪造 企图 都 无 法 得 促 。 由 欧 
盟 委员 会 资助 的 几 个 国际 研究 项 目 也 正 致力 于 实用 的 水 印 技术 研究 ,欧盟 期 望 能 使 其 成 
员 国 在 数字 作品 电子 交易 方面 达成 协议 ,其 中 的 数字 水 印 系统 可 以 提供 对 复制 品 的 探测 
追踪 。 在 数字 作品 转让 之 前 ,作品 创作 者 可 以 嵌入 创作 标志 水 印 ;， 作品 转让 后 ,媒体 发 行 
者 对 存储 在 服务 器 中 的 作品 加 入 发 行者 标志 ; 在 出 售 作品 拷贝 时 ,还 要 加 入 销售 标志 。 

经 过 多 年 的 努力 ,信息 隐藏 技术 的 研究 已 经 取得 了 许多 成 果 。 从 技术 上 来 看 ,隐藏 
有 机 密 信息 的 载体 不 但 能 经 受 人 的 感觉 检测 和 仪器 设备 的 检测 ,而 且 还 能 抵抗 各 种 人 为 
的 蓄意 攻击 。 但 总 的 来 说 ,信息 隐藏 技术 尚未 发 展 到 可 大 规模 使 用 的 阶段 , 仍 有 不 少 理 
论 和 技术 性 的 问题 需要 解决 。 到 目前 为 止 ,信息 隐藏 技术 还 没有 形成 自身 的 理论 体系 。 
例如 ,如 何 计算 一 个 数字 媒体 或 文件 所 能 隐藏 的 最 大 安全 信息 量 等 。 尽 管 信息 隐藏 技术 
在 理论 研究 .技术 开发 和 实用 性 方面 尚 不 成 熟 ,但 它 的 特殊 作用 ,特别 是 在 数字 版 权 保护 
方面 的 独特 作用 ,可 以 说 是 任何 其 他 技术 无 法 取代 的 ,我 们 有 理由 相信 信息 隐藏 技术 必 
将 在 未 来 的 信息 安全 体系 中 独树一帜 。 

信息 隐藏 的 目的 在 于 把 机 密 信息 隐藏 于 可 以 公开 的 信息 载体 之 中 ,信息 载体 可 以 是 
任何 一 种 多 媒体 数据 ,如 音频 、 视 频 、 图 像 ,甚至 文本 数据 等 ,被 隐藏 的 机 密 信息 也 可 以 是 
任何 形式 。 一 个 很 自然 的 要 求 是 ,信息 隐藏 后 能 够 防止 第 三 方 从 信息 载体 中 获取 或 检测 
出 机 密 信 息 。 


4.2.2 信息 隐藏 技术 的 分 类 与 要 求 


根据 应 用 场合 的 不 同 要 求 ,信息 隐藏 技术 可 以 分 为 隐 写 术 和 数字 水 印 两 个 主要 分 
支 。 隐 写 术 研究 的 重点 是 如 何 实 现 信息 伪装 的 隐蔽 性 ;而 数字 水 印 则 需要 考虑 水 印信 息 
是 否 稳健 等 特性 ,如 对 各 种 可 能 攻击 的 敏感 性 等 。 根 据 隐藏 协议 ,信息 隐藏 还 可 分 为 无 
密 钥 信息 隐藏 、. 私 钥 信 息 隐 藏 . 公 钥 信息 隐藏 。 

数字 水 印 近年 来 受到 了 信息 隐藏 研究 人 员 的 广泛 关注 。 水 印 可 以 是 标注 版 权 的 信 
息 或 ID .图形 或 图 章 .音频 信息 、 随 机 序列 等 。 数 字 水 印 根据 宿主 信息 的 不 同 , 可 分 为 文 
本 水 印 RRIK EN .视频 水 印 、 失 量 图 水 印 等 。 图 像 语音、 视频 信号 通常 具有 较 大 的 感官 
元 余 , 故 能 提供 较 大 的 信息 隐藏 空间 。 

根据 水 印 诅 入 所 处 的 位 置 , 水 印 可 分 为 空域 数字 水 印 和 变换 域 数字 水 印 。 根 据 数字 
水 印 的 性 质 ,水 印 可 以 分 为 鲁 棒 水 印 (robust watermarks) #1 é 35 7k EP (ragile watermarks) 。 
两 类 水 印 的 用 途 完全 不 同 。 鲁 棒 水 印 主 要 用 于 数字 内 容 信息 的 版 权 保护 和 所 有 权 认 定 ， 
故 应 能 经 受 各 种 潜在 的 攻击 ;脆弱 水 印 可 以 进一步 分 为 完全 脆弱 水 印 和 半 脆 弱 水 印 
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Csemi-fragile watermarks) 。 完 全 脆弱 水 印 对 任何 针对 含水 印 载体 的 处 理 都 非常 敏感 ,而 
半 脆 弱 水 印 则 只 对 恶意 的 处 理 敏 感 ,而 对 合法 的 处 理 鲁 棒 。 在 实际 应 用 中 , 半 脆 弱 水 印 
通常 具有 更 广泛 的 应 用 前 景 。 

根据 水 印 检测 是 否 需要 原始 载体 信息 和 原始 水 印信 息 ,数字 水 印 可 以 分 为 盲 检测 水 
印 (blind detection) 和 非 盲 检测 水 印 。 从 检测 方法 的 角度 ,水 印 可 以 分 为 私有 水 印 
(private watermark) 和 公开 水 印 (public watermark), 。 此 外 ,根据 含水 印 载体 是 否 可 无 损 
恢复 ,水印 还 可 分 为 可 道 水 印 (reversible watermark) 和 不 可 逆水 印 (irreversible watermark) 。 

不 同 的 应 用 场合 需要 采用 不 同 的 信息 隐藏 技术 ,它们 的 要 求 也 不 同 。 

(1) 隐 写 术 : 对 隐 写 术 最 重要 的 要 求 包括 不 可 感知 性 和 不 可 检测 性 、 秘 密 性 、 较 大 的 
水 印 容量 以 及 算法 实现 简单 。 

(2) 鲁 棒 水 印 : 对 鲁 棒 水 印 最 重要 的 要 求 包括 不 可 感知 性 、 鲁 棒 性 ( 即 含水 印 的 载体 
经 过 一 些 信号 处 理 以 后 ,水 印 仍然 具有 较 好 的 可 检测 性 ) .能 解决 所 有 权 死 锁 问 题 、 秘 密 
性 以 及 算法 实现 简单 等 。 

(3) 完全 脆弱 水 印 : 对 完全 脆弱 水 印 最 重要 的 要 求 包括 不 可 感知 性 、 对 任何 处 理 的 
敏感 性 ,秘密 性 以 及 算法 实现 简单 等 。 

(4) 半 脆 弱 水 印 : 对 完全 脆弱 水 印 最 重要 的 要 求 包括 不 可 感知 性 、 对 恶意 攻击 的 敏 
感性 ,对 合法 处 理 的 便 棒 性 .秘密 性 以 及 算法 实现 简 nude 
单 等 。 

在 信息 隐藏 中 ,三 个 最 主要 的 因素 分 别 是 鲁 棒 性 、 
不 可 感知 性 和 水 印 容量 。 在 上 述 三 个 因素 的 关系 上 ， erem wae 
J. Fridich 给 出 了 如 图 4-3 所 示 的 三 角 关 系 。 它 的 含义 图 4.3 信息 隐藏 三 个 要 素 的 关系 
是 : 对 于 一 个 信息 隐藏 系统 ,在 这 三 个 要 素 上 总 是 会 在 
某 一 个 上 有 所 偏重 ,不 可 能 同时 达到 最 优 。 例 如 ,如 果 我 们 希望 一 个 信息 隐藏 系统 的 鲁 
棒 性 很 好 , 那 就 会 不 可 避免 地 在 水 印 容量 和 不 可 感知 性 方面 做 出 一 定 的 牺牲 。 


4.2.3 信息 隐藏 技术 的 基本 原理 与 模型 


从 信号 处 理 的 角度 来 理解 ,信息 隐藏 可 视 为 在 强 背 景 信号 (载体 ) 中 番 加 一 个 弱 信 号 
(隐藏 信息 )。 由 于 人 的 听觉 系统 和 视觉 系统 的 分 辨 能 力 受到 一 定 的 限制 , 释 加 的 弱 信 号 
只 要 低 于 某 一 个 阔 值 ,人 就 无 法 感觉 到 隐藏 信息 的 存在 。 

设 瓦 和 瓦 " 分 别 表示 原始 载体 信号 和 隐藏 信息 后 的 含 隐秘 信息 载体 信号 ,WW 为 待 隐 
藏 信息 ,信息 隐藏 的 过 程 可 表示 为 : 


H'—H-c fCF.W) (4-1) 
L J. Cox 提出 了 三 种 常用 的 信息 嵌入 公式 ,分 别 为 : 

h= h; + aw; (4-2) 

h,= h; O + aw;) (4-3) 

h= h: +a | h; | wi (4-4) 


其 中 ,h; 和 有 i 分别 表示 原始 载体 信号 和 隐藏 信息 后 的 含 隐秘 信息 载体 信号 分 量 (或 从 中 
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提取 的 特征 ) 值 ,w; 为 待 嵌入 隐藏 信号 分 量 ,a MARCAR EE S a 越 大 ,嵌入 的 信号 幅度 越 
大 , 鲁 棱 性 越 好 ,但 感知 性 会 降低 ;反之 , 则 感知 性 好 而 鲁 棒 性 降低 。 因 此 ,a 的 选择 应 在 
满足 不 可 感知 性 的 前 提 下 , 尽 可 能 选择 较 大 的 值 。 

对 于 式 (4-2) 和 式 (4-3) 所 示 的 嵌入 方法 ,可 以 实现 盲 检测 。 由 于 式 (4-4) 中 廊 的 符 
号 改变 的 随机 性 ,无 法 实现 盲 检测 。 

假设 用 H^ 表示 待 测 的 掩 密 信号 ,从 中 提取 的 水 印 序 列 用 W" 表示 ,W" — (uw? } ,在 
H* 相对 于 五 "没有 误差 的 情况 下 ,隐藏 信息 可 由 式 (4-2) 和 式 (4-3) 提 取 ， 

= (hf —h:)/a 或 w = (h? —h)/a*h 

然而 ,由 于 瓦 * 相对 于 H' 会 有 一 些 失 真 ,因此 提取 出 来 的 w 也 会 和 原始 的 隐藏 信 
Ew; 不 同 。 为 此 ,水 印 的 检测 通常 需要 三 个 步骤 : 

(1) 计算 检测 的 水 印 与 原始 水 印信 息 的 相关 性 。 

(2) 门限 化 所 得 到 的 计算 结果 。 

(3) 判断 水 印 是 否 存 在 。 

为 了 确定 H 中 是 否 含有 水 印 , 可 以 通过 式 (4-5) 计 算 W* 和 W 的 相似 度 : 


二 
p(W* ,W) = Du «| P j (4-5) 
i =0 


水 印 存在 与 否 的 判定 标准 为 : 若 po(W WOSST, T AEBN E o fi PAKE W 
存在 ;否则 没有 。T 为 一 阔 值 ,其 选择 需要 综合 考虑 误 检 率 和 漏 检 率 。T 值 选择 过 小 ,会 
导致 误 检 率 增加 而 漏 检 概 率 降 低 ;T 值 选择 过 大 , 则 会 导致 漏 检 概 率 增加 而 误 检 率 降低 。 

从 数字 通信 的 理论 出 发 ,信息 隐藏 可 理解 为 在 一 个 宽带 信道 (原始 载体 信息 ) 上 采用 
扩 频 通信 技术 传输 一 个 窄带 信号 (隐藏 信息 )。 由 于 隐藏 信号 的 能 量 较 低 , 它 分 布 到 信道 
中 任意 特征 上 的 能 量 是 难以 检测 到 的 ;隐藏 信息 的 检测 则 可 理解 为 在 一 个 含 噪声 信道 中 
的 弱 信 号 检测 问题 ,如 图 4-4 所 示 。 


Witten SH 特征 提取 保 真 度 准则 
eU [rg J s H BEA. H tein 
eo 信息 隐藏 
ANE 一 -| 特征 提取 | -| 检测 - 信道 译 码 H eee | ~ ees 
人 信息 提取 


图 4-4 信息 隐藏 模型 


4.2.4 空域 信息 隐藏 技术 


空域 隐藏 技术 是 指 在 图 像 、 视 频 、 音 频 等 载体 的 空间 域 上 进行 信息 隐藏 。 通 过 直接 
改变 宿主 媒体 的 某 些 像素 值 (采样 值 ) 来 嵌入 数据 。 
空域 信息 隐藏 技术 无 须 对 原始 媒体 进行 变换 ,计算 简单 ,效率 较 高 ,但 由 于 水 印 要 均 
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衡 不 可 感知 性 和 稳健 性 ,因而 可 选择 的 属性 范围 较 小 。 此 外 ,难以 抵抗 常见 信号 处 理 的 
攻击 及 噪声 干扰 的 影响 , 鲁 棒 性 较 差 。 

下 面 介绍 两 种 比较 典型 的 空域 信息 隐藏 方法 : 基于 替换 LSB 的 空域 信息 隐藏 方法 
和 Patchwork 空域 信息 隐藏 方法 。 

在 基于 空域 的 信息 隐藏 方法 中 ,替换 LSB 位 平面 的 方法 是 最 简单 和 最 经 典 的 一 种 。 
LSB(the Least Significant Bits) 即 最 不 重要 比特 位 。 改 变 LSB 主要 的 考虑 是 不 重要 数据 
的 调整 对 原始 图 像 的 视觉 效果 影响 较 小 。 在 该 方法 中 ,以 图 像 为 例 ,图 像 部 分 像素 的 最 
低 一 个 或 者 多 个 位 平面 的 值 被 隐藏 数据 所 替换 。 即 载体 像素 的 LSB 平面 根据 要 隐藏 的 
数据 改变 为 “1? 或 者 不 变 , 以 此 达到 隐藏 信息 的 目的 。 

令 ( 所 ,fi，,…,f,) 为 从 原始 宿主 图 像 中 选择 出 来 作为 隐藏 信息 的 像素 集合 , O. 
b, seb, lbi E10,1)) 为 待 隐 藏 的 信息 , 则 机 入 过 程 可 表述 为 : 

C) b; (4-6) 
其 中 算 子 取 载体 像素 的 最 低 1 位 。 

基于 替换 的 LSB 的 隐藏 方法 具有 如 下 特点 : 

(1) 具有 较 大 的 信息 隐藏 容量 ,隐藏 容量 信息 可 以 达到 1 一 3 比特 /像素 。 

(2) 计算 简单 。 

(3) 掩 密 图 像 失真 小 。 

(4) 隐藏 数据 的 鲁 棒 性 较 差 。 

例 4-1 设 待 隐藏 信息 为 1001, 取 灰 度 图 像 的 4 个 像素 值 (0 一 255 整数 ) 的 最 低位 进 
行 隐藏 ,如 表 4-1 所 示 。 


mad 例 4-1 用 表 
一 一 一 一 一 一 一 一 一 一 一 


隐藏 前 8 位 灰 度 值 


二 进 制 表示 


隐藏 后 二 进 制 


隐藏 后 8 位 灰 度 值 


34 


00100010 


00100011 


35 


10110100 


10110100 


11111111 


11111110 


00000010 


00000011 


Patchwork 算法 ( 亦 称 为 拼凑 方法 ) 只 是 试图 回答 是 否 有 水 印 存在 ,因而 实际 隐藏 的 
只 是 1 比特 信息 。Patchwork 算法 的 一 般 步骤 如 下 : 

CD 用 一 个 密 钥 初始 化 一 个 伪 随 机 数 发 生 器 。 

(2) 根据 伪 随 机 数 发 生 器 的 输出 ,随机 选择 ”个 像素 对 ,其 灰 度 值 为 (ai sbi) 。 

(3) 令 好 一 ai 十 1, 如 一 久 一 1, 完 成 信息 的 嵌入 。 这 样 整个 图 像 的 平均 亮度 保持 不 
变 。 检测 时 , 令 


s= $ (oz 一 好 ) (4-7) 


如 果 s<“27, 则 判定 存在 隐藏 信息 ,否则 s 的 值 应 该 接近 0。 
这 种 方法 是 基于 如 下 统计 假设 的 , 即 原始 载体 中 随机 选择 的 N 对 像素 是 独立 分 布 
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的 ,也 就 是 满足 
EL] = Y Ela] ELD 4-8) 


AE, FL ARE RAD EKIA D REIR ss*2z; 和 否则 只 能 得 到 *0。 

实际 上 ,该 嵌入 方法 只 嵌入 了 1 比特 信息 。 通 过 适当 调整 参数 ,拼凑 方法 对 JPEG E 
缩 FIRCFinite Impulse Response) 滤 波 以 及 图 像 裁 前 有 一 定 的 抵抗 力 , 但 该 方法 做 入 的 
信息 量 有 限 。 为 了 嵌入 更 多 的 隐藏 信息 ,可 以 将 图 像 分 块 ,然后 对 每 一 个 图 像 块 进行 内 
人 操作 。 

Patchwork 算法 基于 改变 图 像 数据 的 统计 特性 。 该 算法 首先 随机 选取 N 对 像素 点 ， 
然后 通过 增加 像素 对 中 一 个 点 的 亮度 值 , 而 相应 降低 另 一 个 点 亮度 值 的 方法 来 隐藏 信 
息 。 为 增加 水 印 的 鲁 棒 性 ,还 把 像素 对 扩展 为 小 块 的 像素 区 域 ,通过 增加 一 个 区 域 中 的 
所 有 像素 点 的 亮度 值 ,从 而 相应 地 减少 对 应 区 域 中 所 有 像素 点 亮度 值 的 方法 来 隐藏 信 
息 。 但 该 算法 艇 入 码 率 低 , 且 对 共 谋 攻击 的 抵抗 能 力 弱 。 


4.2.5 变换 域 信息 隐藏 技术 


变换 域 隐藏 技 术 中 ,信息 隐藏 过 程 是 在 变换 域 中 进行 的 。 借 助 信号 进行 正 交 变 换 后 
能 量 重新 分 布 的 特点 ,在 变换 域 中 进行 信息 隐藏 ,可 以 较 好 地 解决 不 可 感知 性 和 稳健 性 
的 矛盾 。 因 而 ,基于 变换 域 的 方法 在 信息 隐藏 研究 中 占有 主要 地 位 。 

信息 隐藏 中 的 正 交 变换 可 以 理解 为 将 信号 按 频 谱 进行 分 解 ,每 个 分 量 的 值 代表 信号 
在 此 频率 上 的 能 量 ; 反 变换 则 是 一 个 对 各 频率 分 量 进行 加 权 和 的 合成 过 程 。 通 常 , 信 号 
的 主要 能 量 集 中 在 低频 部 分 ,因而 变换 域 低频 系数 的 值 普遍 较 大 ,而 高 频 系 数 则 表示 信 
号 的 突变 成 分 ,其 系数 值 相对 较 小 。 

信息 隐藏 中 常用 的 变换 有 : 离散 傅 里 叶 变换 (Discrete Fourier Transform ,DFT) ,离散 余 
3% AF Hi (Discrete Cosine Transform, DCT) ,离散 小 波 变 换 (Discrete Wavelet Transform. 
DWT) 和 RST 变换 。 此 外 ,近年 还 出 现 Bandelet 变换 .Curvelet 变换 等 。 


l. 离散 余弦 变换 


在 通常 使 用 的 图 像 压 缩 标准 ,如 JPEG, MPEG-2 等 标准 中 ,采用 的 变换 都 是 DCT， 
因此 基于 DCT 变换 的 数字 水 印 技术 是 切实 可 行 的 。 基 于 DCT 的 数字 水 印 算法 首先 从 
载体 中 获取 特征 进行 二 维 离散 余弦 变换 ,然后 选择 适当 的 系数 将 水 印 戏 入 ,最 后 进行 二 
维 离散 余弦 反 变换 得 到 加 入 水 印 的 图 像 。 选 择 什么 样 频段 的 系数 是 一 个 很 有 争议 的 问 
题 ,有 人 主张 将 水 印加 入 高 频段 ,这 样 不 至 于 使 原始 图 像 失真 ;也 有 人 认为 应 加 入 到 图 像 
的 低频 段 ,以 增强 水 印 的 鲁 棒 性 。 现 在 更 为 统一 的 意见 是 将 水 印加 入 到 原始 图 像 的 中 频 
段 以 在 信 噪 比 和 和 鲁 棒 性 之 间 折 衷 。 


2. 离散 小 波 变换 


由 于 小 波 变换 具有 多 分 辩 分 析 特 点 ,能 充分 反映 人 类 的 视觉 特性 ,特别 是 新 的 图 像 
压缩 标准 ,如 JPEGZ000, MPEG-4 等 都 采用 了 基于 小 波 变 换 的 方法 ,因而 在 小 波 变换 域 
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研究 水 印 是 极为 重要 的 。 基 于 DWT 的 数字 水 印 算法 的 基本 思想 和 基于 DCT 的 数字 水 
印 算法 的 基本 思想 是 基本 一 样 的 。 但 是 由 于 基于 DWT 的 数字 水 印 算法 具有 多 分 辩 特 
性 ,水 印 的 嵌入 变 得 更 为 灵活 。 

变换 域 信息 隐藏 方法 的 主要 步骤 如 下 : 

CD 应 用 DCT、DFT、DWT 等 方法 将 原始 宿主 信号 变换 到 频 域 空间 。 

(2) 在 变换 域 选择 个 系数 以 隐藏 信息 。 

(3) 根据 一 定 的 规则 或 者 公式 修改 选择 的 个 变换 系数 。 

(4) 进行 反 变换 以 得 到 掩 密 载 体 。 

与 空域 的 方法 相 比 ,变换 域 的 方法 有 如 下 优点 : 

(1) 变换 域 中 能 入 的 信号 能 量 可 以 较 均 匀 地 分 布 到 空域 的 所 有 像素 上 ,有 利于 保证 
不 可 见 性 。 

(2) 在 变换 域 ,HVSCHuman Visual System)/ HASCHuman Auditory System) ff] E 
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(3) 变换 域 的 方法 可 与 国际 数据 压缩 标准 兼容 ,从 而 便于 实现 在 压缩 域内 的 信息 隐 
藏 算法 。 

变换 域 方法 的 主要 缺点 : 一 般 来 说 ,隐藏 信息 量 比 空域 方法 低 ;计算 量 大 于 空域 算 
法 ;在 正 变换 / 反 变换 计算 过 程 中 ,由 于 数据 格式 的 转换 ,通常 会 造成 信息 的 丢失 ,这 将 等 
效 于 一 次 轻微 的 攻击 ,对 于 隐藏 数据 量 大 的 情况 下 ,这 是 不 利 的 。 


4.2.6 其 他 信息 隐藏 技术 


1. RST 域 算法 


RST 域 信 息 隐 藏 法 的 基本 思想 是 利用 Fourier-Mellin 变换 ,使 得 经 过 旋转 、 缩 放 、 平 
移 后 得 到 的 图 像 和 原 图 像 在 RST 域 保持 一 致 , 它 需 要 先后 经 过 离散 傅 里 叶 变 换 、 
Fourier-Mellin 变换 .DFT, 形 成 的 变换 域 称 为 RST 域 ,然后 将 水 印信 号 加 入 RST 域 ,最 
后 采用 相反 的 过 程 先后 进行 IDFT、Fourier-Mellin 逆 变 换 、IDFT 得 到 隐藏 信息 后 的 图 
像 。 该 方法 的 优点 是 具有 很 强 的 抗 几何 变换 能 力 ,缺点 是 抵抗 有 损 压 缩 、 低 通 滤波 等 信 
号 处 理 方法 的 稳健 性 不 够 。 


2. 压缩 域 算法 


基于 JPEG MPEG 标准 的 压缩 域 信息 隐藏 系统 不 仅 节省 了 大 量 的 完全 解码 和 重新 
编码 过 程 ,而 且 在 数字 电视 广播 及 VOD(Video On Demand) 中 有 很 大 的 使 用 价值 。 相 应 
地 ,水 印 检测 与 提取 也 直接 在 压缩 域 数据 中 进行 。 


3. 网 格 水 印 算法 


针对 计算 机 图 形 学 中 常用 的 三 角形 网 络 模 型 ,提出 的 网 格 信息 隐藏 方案 ,与 多 分 辨 
网 格 处 理工 具 箱 集成 ,不 需要 建立 额外 的 数据 结构 和 进行 额外 的 复杂 计算 ,直接 在 网 格 
低频 成 分 中 嵌入 水 印 ,并 且 在 利用 网 格 处 理工 具 箱 进行 网 格 处 理 时 ,可 以 较 好 地 保留 隐 
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藏 信息 ,而且 重 采样 算法 简单 高 效 , 使 简化 网 格 和 拓扑 结构 已 改变 的 网 格 的 水 印 检测 成 
为 可 能 。 


4. 扩 频 技术 


扩 频 技术 的 一 个 重要 优点 是 具有 很 强 的 抗 干扰 性 。 这 一 特点 对 信息 隐藏 技术 特别 
有 用 。 在 数字 水 印 技术 中 ,将 原始 数据 的 频 域 看 作 通信 信 道 C, 水 印 看 作 将 通过 C 的 信 
号 S, 各 种 有 意 、 无 意 的 干扰 (攻击 ) 看 作 噪 声 N。 利 用 扩 频 技术 原理 ,将 水 印 分 布 在 许多 
数据 频 域 系数 中 ,加 入 每 个 频 域 系数 的 信号 能 量 很 小 且 不 可 随意 检测 。 然 而 ,水 印 检测 
过 程 知 道 水 印 的 位 置 和 内 容 , 它 能 将 许多 微弱 的 信号 集中 起 来 形成 具有 较 高 信 噪 比 的 输 
出 值 ,要 破坏 水 印 需要 很 强 的 噪声 加 入 所 有 的 频 域 系数 中 ,但 是 破坏 水 印 的 同时 也 造成 
原始 数据 质量 严重 下 降 。 


5. 人 的 生理 模型 技术 


人 的 生理 模型 包括 人 类 视觉 系统 HVS 和 人 类 听觉 系统 HAS。 该 模型 不 仅 被 多 媒 
体 数据 压缩 系统 利用 ,同样 可 以 供 信息 隐藏 技术 利用 。 它 的 基本 思想 是 利用 从 模型 中 导 
出 的 JND(Just Noticeable Difference) fifi VE ofc t 7E W (fk CIS fe V 声音、 视频 ) 的 各 个 部 分 所 
能 容忍 的 隐秘 信号 的 最 大 强度 ,从 而 能 够 避免 破坏 视觉 (听觉 ) 质 量 , 因 而 这 一 方法 同时 
具有 好 的 透明 性 和 稳健 性 。 


4.3 数字 水 印 技术 


4.3.1. 数字 水 印 的 框架 和 分 类 


数字 水 印 (digital watermarking) 是 实现 数字 内 容 保护 的 有 效 方法 ,已 成 为 多 媒体 信 
息 安 全 研究 领域 的 一 个 热点 ,也 是 信息 隐藏 技术 研究 领域 的 重要 分 支 。 它 通过 在 原始 数 
据 中 嵌入 秘密 信息 -水 印 来 证 实 该 数据 的 所 有 权 。 被 嵌入 的 水 印 可 以 是 一 段 文字 、 标 识 、 
序列 号 等 。 水 印 通常 是 不 可 见 或 不 可 察 的 , 它 与 原始 数据 (如 图 像 音频、 视频 数据 等 ) 紧 
密 结 合并 隐藏 其 中 ,成 为 源 数据 不 可 分 离 的 一 部 分 ,并 可 以 经 历 一 些 不 破坏 源 数据 使 用 
价值 或 商用 价值 的 操作 而 存活 下 来 。 

由 于 水 印信 号 的 嵌入 可 以 视 为 在 强 背 景 下 迭 加 一 个 弱 信 号 ,只 要 迭 加 的 水 印信 号 强 
度 低 于 HVS/HAS 的 对 比 度 门限 。 特 别 需 要 注意 的 是 ,HVS/HAS 的 对 比 度 门限 受 视 
觉 /听觉 系统 的 空间 、 时 间 和 频率 特性 的 影响 。 因 此 ,利用 人 类 的 视觉 元 余 或 不 敏感 性 、 
载体 其 自身 的 独特 性 数据 元 余 性 \ 时 频 的 局 部 特性 ,把 创作 者 的 创作 信息 和 个 人 标志 加 
入 到 多 媒体 数据 中 ,使 人 们 无 法 从 表面 上 感知 加 入 的 信息 ,只 有 专用 的 检测 器 或 计算 机 
软件 才 可 以 检测 出 隐藏 的 信息 ,从 而 达到 对 数字 内 容 进行 保护 的 目的 。 

所 有 嵌入 水 印 的 方法 都 包含 这 些 基 本 的 构造 模块 , 即 一 个 水 印 衣 入 系统 和 一 个 水 印 
恢复 系统 ,分 别 如 图 4-5 和 图 4-6 所 示 。 其 中 , 密 钥 可 用 来 加 强 安全 性 ,避免 未 授权 方 恢 
复 和 修改 水 印 。 
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gn H 水 印信 号 ——1 


原始 信号 [一 >| AE | 一 [ 舍 水 印 的 信号 
图 4-5 数字 水 印 嵌入 过 程 


原始 的 信号 
待 检测 的 信号 | -~ | 抽取 /检测 过 程 | -~| 抽取 的 水 印 


判断 有 /无 水 印 


水 印信 息 
图 4-6 数字 水 印 检测 /抽取 过 程 


数字 水 印 的 分 类 方法 有 很 多 种 ,分 类 的 出 发 点 不 同 导 致 了 分 类 的 不 同 , 最 常见 的 分 
类 方法 包括 以 下 几 类 。 


1. 按 特 性 划分 


按 水 印 的 特性 可 以 将 数字 水 印 分 为 鲁 棒 数 字 水 印 (Robust Watermarking) 和 脆弱 数 
字 水 印 (Fragile Watermarking) 两 类 。 和 鲁 棒 数 字 水 印 主要 用 于 在 数字 作品 中 标识 著作 权 
信息 ,利用 这 种 水 印 技 术 在 多 媒体 内 容 的 数据 中 嵌入 创建 者 .所 有 者 的 标示 信息 A 
和 人 购买 者 的 标示 ( 即 序列 号 ) 。 在 发 生 版 权 纠纷 时 ,创建 者 或 所 有 者 的 信息 用 于 标示 数据 
的 版 权 所 有 者 ,而 序列 号 用 于 追踪 违反 协议 而 为 盗版 提供 多 媒体 数据 的 用 户 。 用 于 版 权 
保护 的 数字 水 印 要 求 有 很 强 的 鲁 棒 性 和 安全 性 ,除了 要 求 在 一 般 图 像 处理 ( 如 滤波 、 加 噪 
声 . 蔡 换 、 压 缩 等 ) 中 生存 外 ,还 需 能 抵抗 一 些 恶意 攻击 。 

脆弱 数字 水 印 与 鲁 棒 水 印 的 要 求 相 反 , 主 要 用 于 完整 性 保护 ,这 种 水 印 同样 是 在 内 
容 数据 中 嵌 人 不 可 见 的 信息 。 当 内 容 发 生 改 变 时 ,这 些 水 印信 息 会 发 生 相 应 的 改变 ,从 
而 可 以 鉴定 原始 数据 是 否 被 算 改 。 脆 弱 水 印 应 对 一 般 的 信号 处 理 ( 如 滤波 、 加 噪声 、 替 
换 、 压 缩 等 ) 有 和 较 强 的 免疫 能 力 ( 鲁 棱 性 ), 同 时 又 要 求 有 较 强 的 敏感 性 , 既 允 许 一 定 程度 
的 失真 ,又 要 能 将 失真 情况 探测 出 来 。 脆 弱 数 字 水 印 必须 对 信号 的 改动 很 敏感 ,人 们 根 
据 易 损 水 印 的 状态 就 可 以 判断 数据 是 否 被 算 改 过 。 


2. 按 水 印 所 附 载 的 媒体 划分 


按 水 印 所 附 载 的 媒体 ,我 们 可 以 将 数字 水 印 划分 为 图 像 水 印 .音频 水 印 、 视 频 水 印 、 
文本 水 印 ,三维 网 格 模型 的 网 格 水 印 和 二 维 矢量 图 形 水 印 等 。 随 着 数字 技术 的 发 展 , 会 
有 更 多 种 类 的 数字 媒体 出 现 ,同时 也 会 产生 相应 的 水 印 技术 。 


3. 按 检测 过 程 划分 


按 水 印 的 检测 过 程 可 以 将 数字 水 印 划分 为 明文 水 印 和 盲 水 印 。 明 文 水 印 在 检测 过 
程 中 需要 原始 数据 ,而 盲 水 印 的 检测 只 需要 密 钥 ,不 需要 原始 数据 。 一 般 来 说 ,明文 水 印 
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的 鲁 棒 性 比较 强 , 但 其 应 用 受到 存储 成 本 的 限制 。 目 前 学 术 界 研究 的 数字 水 印 大 多 数 是 
AKE. 


4. 按 内 容 划 分 


按 数字 水 印 的 内 容 可 以 将 水 印 划分 为 有 意义 水 印 和 无 意义 水 印 。 有 意义 水 印 是 指 
水 印 本 身 也 是 某 个 数字 图 像 ( 如 商标 图 像 ) 或 数字 音频 片段 的 编码 ;无 意义 水 印 则 只 对 应 
于 一 个 序列 号 。 有 意义 水 印 的 优势 在 于 ,如 果 由 于 受到 攻击 或 其 他 原因 致使 解码 后 的 水 
印 破损 ,人 们 仍然 可 以 通过 视觉 观察 确认 是 否 有 水 印 。 但 对 于 无 意义 水 印 来 说 ,如 果 解 
码 后 的 水 印 序列 有 若干 码 元 错误 , 则 只 能 通过 统计 决策 来 确定 信号 中 是 否 含有 水 印 。 


5. 按 用 途 划 分 


不 同 的 应 用 需求 造就 了 不 同 的 水 印 技术 。 按 水 印 的 用 途 , 我 们 可 以 将 数字 水 印 划分 
为 票证 防伪 水 印 .版 权 保护 水 印 、 算 改 提 示 水 印 和 隐蔽 标识 水 印 。 

票证 防伪 水 印 是 一 类 比较 特殊 的 水 印 , 主 要 用 于 打印 票据 和 电子 票据 .各 种 证 件 的 
防伪 。 一 般 来 说 , 伪 币 的 制造 者 不 可 能 对 票据 图 像 进行 过 多 的 修改 ,所 以 ,诸如 尺度 变换 
等 信号 编辑 操作 是 不 用 考虑 的 。 但 另 一 方面 ,人 们 必须 考虑 票据 破损 .图 案 模糊 等 情形 ， 
而 且 考虑 到 快速 检测 的 要 求 , 用 于 票证 防伪 的 数字 水 印 算法 不 能 太 复 杂 。 

版 权 标识 水 印 是 目前 研究 最 多 的 一 类 数字 水 印 。 数 字 作 品 既 是 商品 又 是 知识 作品 ， 
这 种 双重 性 决定 了 版 权 标识 水 印 主 要 强调 隐蔽 性 和 和 鲁 棒 性 ,而 对 数据 量 的 要 求 相 对 
较 小 。 

算 改 提示 水 印 是 一 种 脆弱 水 印 , 其 目的 是 标识 原文 件 信号 的 完整 性 和 真实 性 。 

隐蔽 标识 水 印 的 目的 是 将 保密 数据 的 重要 标注 隐藏 起 来 ,限制 非法 用 户 对 保密 数据 
的 使 用 。 


6. 按 水 印 隐藏 的 位 置 划分 


按 数字 水 印 的 隐藏 位 置 ,我 们 可 以 将 其 划分 为 时 ( 空 ) 域 数字 水 印 、 频 域 数字 水 印 、 
时 / 频 域 数 字 水 印 和 时 间 / 尺 度 域 数字 水 印 。 

时 ( 空 ) 域 数字 水 印 是 直接 在 信号 空间 上 又 加 水 印信 息 , 而 频 域 数字 水 印 . 时 / 频 域 数 
字 水 印 和 时 间 / 尺 度 域 数字 水 印 则 分 别 是 在 DCT 变换 域 . 时 / 频 变 换 域 和 小 波 变换 域 上 
隐藏 水 印 。 

随 着 数字 水 印 技术 的 发 展 ,各 种 水 印 算法 层出不穷 ,水 印 的 隐藏 位 置 也 不 再 局 限于 
上 述 四 种 。 应 该 说 ,只 要 构成 一 种 信号 变换 ,就 有 可 能 在 其 变换 空间 上 隐藏 水 印 。 


4.3.2 数字 水 印 的 评价 指标 


CD 安全 性 : 数字 水 印 的 信息 应 是 安全 的 ,难以 自 改 或 伪造 ,同时 ,应 当 有 较 低 的 误 
检测 率 , 当 原 内 容 发 生变 化 时 ,数字 水 印 应 当 发 生变 化 ,从 而 可 以 检测 原始 数据 的 变更 ; 
当然 数字 水 印 同 样 对 重复 添加 有 较 强 的 抵抗 性 。 

(2) 隐藏 性 : 数字 水 印 应 是 不 可 知觉 的 ,而 且 应 不 影响 被 保护 数据 的 正常 使 用 ;不 会 
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降 质 ;衡量 隐蔽 性 的 客观 标准 有 均 方 误差 (Mean-Square Error,MSE) 和 信 噪 比 (Signal- 
to-Noise Radio. SNR) 。 

设 原 始 载体 和 掩 密 载体 分 别 用 Ha A H Ge 0 RES rn 0 M— 1.0 y 
NN 一 1, 则 掩 密 载体 相对 于 原始 载体 造成 的 均 方 误差 MSE 定义 为 : 


M-1 N-1 
MSE — ux 2:27 | HG.) — HG,y) |? (4-9) 
与 此 同时 ,水 印 嵌 入 载体 也 可 视 为 在 载体 中 引入 了 一 定 的 噪声 , 即 : 
H(zx,y) = HG y) t eGr.y) (4-10) 
由 此 可 以 定义 掩 密 载 体 和 原始 载体 的 信 噪 比 为 : 
M-1 N-1 M-1 N-1 
SNR — > S/S MeG.y) (4-11) 


zx=0 y=0 z=0 y-0 


在 此 基础 上 ,可 以 定义 出 峰值 信 噪 比 PSNR(Peak Signal-to-Noise Ratio) : 


2 
PSNR = 10 - log SE 


(3) 和 鲁 棒 性 : 是 指 在 经 历 多 种 有 意 或 无 意 的 信号 处 理 操作 后 ,数字 水 印 仍 能 保持 部 
分 完整 性 并 能 被 准确 鉴别 。 可 能 的 信号 处 理 过 程 包括 信道 噪声 、 滤 波 、 数 / 模 与 模 / 数 转 
换 、 重 采样 , 剪 切 \ 位 移 、 尺 度 变化 以 及 有 损 压 缩编 码 等 。 对 于 脆弱 水 印 , 它 主要 用 于 完整 
性 保护 ,这 种 水 印 同样 是 在 数字 内 容 中 嵌入 不 可 见 的 信息 , 当 数 字 内 容 发 生 改 变 时 ,这 些 
水 印信 息 会 发 生 相应 的 改变 ,从 而 可 以 鉴定 原始 数据 是 否 被 自 改 。 

CD 水 印 容量 : 嵌入 的 水 印信 息 必须 足以 表示 数字 内 容 的 创建 者 或 所 有 者 的 标志 信 
息 , 或 购买 者 的 序列 号 ,这 样 有 利于 解决 版 权 纠纷 ,保护 数字 产权 合法 拥有 者 的 利益 。 尤 
其 是 隐蔽 通信 和 领域 的 特殊 性 ,对 水 印 的 容量 需求 较 大 。 


4.3.3 数字 水 印 的 攻击 方法 


水 印 攻击 与 密码 攻击 一 样 , 包 括 主动 攻击 和 被 动 攻击 。 主 动 攻击 的 目的 并 不 是 破解 
数字 水 印 ,而 是 自 改 或 破坏 水 印 ,使 合法 用 户 也 不 能 读 取水 印信 息 。 而 被 动 攻击 则 试图 
破解 数字 水 印 算法 。 相 比 之 下 ,被动 攻击 的 难度 要 大 得 多 ,但 一 旦 成 功 , 则 所 有 经 该 水 印 
算法 加 密 的 数据 全 都 失去 了 安全 性 。 

主动 攻击 的 危害 虽然 不 如 被 动 攻击 的 危害 大 ,但 其 攻击 方法 往往 十 分 简单 ,易于 广 
泛 传 播 。 无 论 是 密码 学 还 是 数字 水 印 ,主动 攻击 都 是 一 个 令 人 头疼 的 问题 。 对 于 数字 水 
印 来 说 , 绝 大 多 数 攻 击 属于 主动 攻击 。 

值得 一 提 的 是 ,主动 攻击 并 不 等 于 肆意 破坏 。 以 版 权 保护 水 印 为 例 ,如 果 将 嵌入 了 
水 印 的 数字 艺术 品 弄 得 面目 全 非 , 对 攻击 者 也 没有 好 处 ,因为 遭受 破坏 的 艺术 品 是 无 法 
销售 的 。 对 于 票据 防伪 水 印 来 说 ,过 度 损害 数据 的 质量 是 没有 意义 的 。 真 正 的 主动 水 印 
攻击 应 该 是 在 不 过 多 影响 数据 质量 的 前 提 下 ,除去 数字 水 印 。 


1. 解释 攻击 及 对 策 
解释 攻击 也 称 IBM 攻击 或 二 次 水 印 攻击 或 水 印 的 死 锁 , 这 一 攻击 是 由 IBM 公司 
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Watson 中 心 的 研究 人 员 首 先 提出 的 。 因 为 在 一 些 水 印 方案 中 ,可 能 存在 对 检测 出 的 水 
印 的 多 个 解释 。 在 解释 攻击 中 ,载体 特征 或 许 被 改变 或 许 不 被 改变 。 此 类 攻击 往往 要 求 
对 所 攻击 的 特定 的 水 印 算法 进行 深入 彻底 的 分 析 。 

目前 ,由 解释 攻击 所 引起 的 无 法 仲裁 的 版 权 纠纷 的 解决 方案 主要 有 四 种 ; 第 一 种 方 
法 是 引入 时 戳 机 制 , 从 而 确定 两 个 水 印 被 嵌入 的 先后 顺序 ;第 二 种 方法 是 作者 在 注册 水 
印 序列 的 同时 对 原始 作品 加 以 注册 ,以 便于 增加 对 原始 图 像 的 检测 ;第 三 种 方法 是 利用 
单 向 水 印 方案 消除 水 印 戏 入 过 程 中 的 可 逆 性 ;第 四 种 方法 是 利用 双 水 印 和 盲 检测 技术 ， 
杜绝 伪造 原始 图 像 的 可 能 性 。 


2. 信号 处 理 攻击 及 其 对 策 


常见 的 信号 处 理 攻击 法 包括 无 恶意 的 和 常用 的 一 些 信号 处 理 方法 。 现 实 应 用 中 ,会 
经 常 对 载体 采取 各 种 处 理 以 适应 不 同 的 要 求 。 以 数字 图 像 为 例 , 信 号 处 理 攻 击 法 也 包括 
通过 加 上 噪声 而 有 意 修改 图 像 以 降低 图 像 水 印 的 强度 ,我 们 用 强度 这 一 术语 来 衡量 嵌入 
水 印信 号 的 幅度 相对 于 嵌入 的 数据 幅度 ,类似 于 通信 技术 中 的 调制 系数 这 一 概念 。 

解决 信号 处 理 攻击 的 对 策 有 : 在 人 类 视觉 特性 决定 的 最 大 容许 范围 内 ,增加 嵌入 的 
力度 ;或 者 采用 宛 余 戏 和 技术。 两 种 方法 都 会 增加 水 印 的 强度 ,从 而 抵抗 主动 攻击 。 如 
以 图 像 为 例 , 把 原 图 分 解 成 相同 的 几 幅 小 图 ,在 每 幅 小 图 上 用 同样 的 算法 嵌入 同一 幅 水 
印 图 像 ,能 有 效 地 增加 水 印 的 鲁 捧 性 ,提高 水 印 对 信号 处 理 攻 击 的 抵抗 能 力 。 如 果 从 安 
全 的 角度 考虑 ,可 以 将 原 图 分 解 成 随机 大 小 的 小 图 ,在 每 幅 小 图 上 用 同样 的 或 不 同 的 算 
法 ,嵌入 同样 的 或 不 同 的 水 印信 息 , 这 更 能 增加 水 印 的 对 信号 处 理 攻击 的 抵抗 。 但 同时 
增加 了 嵌入 信息 的 数量 ,在 一 定 程度 上 影响 了 图 像 的 质量 ,也 增加 了 水 印 检测 的 难度 。 


3. 分 析 攻 击 及 对 策 


分 析 攻 击 法 包括 在 水 印 的 嵌入 和 检测 阶段 采用 特殊 方法 来 擦 除 或 减弱 载体 中 的 水 
印 。 这 类 攻击 往往 是 利用 了 特定 的 水 印 方案 中 的 弱点 ,在 许多 例子 中 , 它 证 明了 分 析 攻 
击 已 经 成 为 可 能 。 共 谋 (collusion attack) 或 多 重文 档 攻击 (multirdocument attack) 就 是 
这 类 攻击 。 以 图 像 为 例 , 共 谋 攻 击 用 同一 图 像 嵌 入 了 不 同 水 印 后 的 不 同 版 本 组 合 而 产生 
一 个 新 的 “嵌入 水 印 ” 图 像 , 从 而 减弱 水 印 的 强度 。 

为 了 防止 分 析 攻 击 ,应 该 限制 提供 的 水 印 化 数字 作品 的 数量 。 另 外 ,在 水 印信 号 设 
计 中 使 用 随机 密 钥 进行 加 密 也 可 以 有 效 增加 消除 攻击 的 计算 复杂 度 ,导致 消除 攻击 不 可 
实现 ,也 可 采用 图 像 与 水 印 相 关 的 水 印 算法 。 现 在 提出 的 许多 算法 ,在 水 印信 号 的 嵌入 
位 置 选择 上 ,基本 都 采用 了 随机 或 伪 随 机 的 机 制 ,加 强 了 水 印 对 分 析 攻 击 的 抵抗 能 力 。 


4. 表达 攻击 及 对 策 


表达 攻击 有 别 于 其 他 攻击 之 处 在 于 它 并 不 需要 除去 数字 内 容 中 嵌入 的 水 印 , 它 是 通 
过 操纵 内 容 从 而 使 水 印 检测 器 无 法 检测 到 水 印 的 存在 。 实 际 上 在 表达 攻击 中 并 未 改变 
任何 载体 的 任何 信息 。 

因为 大 多 数 水 印 提取 算法 需要 知道 戏 入 水 印 的 确切 位 置 , 所 以 表达 攻击 很 难 防御 。 
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以 图 像 为 例 , 目 前 有 效 的 对 策 是 在 嵌入 水 印 的 同时 嵌入 水 印 参照 物 。 那 么 在 提取 过 程 
中 , 先 根 据 水 印 参 照 物 的 变化 获得 表达 攻击 的 变换 步骤 ,然后 应 用 反 转 变换 获得 水 印 的 
完整 恢复 。 第 二 种 对 策 是 ,使 用 与 图 像 相 关 的 脆弱 水 印 。 当 图 像 被 分 割 时 ,脆弱 水 印 能 
报告 图 像 的 失真 情况 。 当 易 损 水 印 不 可 被 检测 时 ,图 像 的 质量 也 应 降低 到 不 可 接受 的 程 
度 。 对 抗 表达 攻击 的 另 一 个 途径 是 : 数字 水 印 在 编码 时 一 定 存 在 元 余数 据 ,而 元 余数 据 
过 多 又 会 影响 水 印 的 信息 量 。 最 有 效 地 抵抗 对 策 是 水 印 提取 算法 中 ,对 能 入 水 印 的 位 置 
采用 相对 的 位 移 地 址 ,而 不 是 采用 绝对 的 存储 位 置 。 


4.3.4 版 权 保 护 数字 水 印 技术 


数字 水 印 技术 之 所 以 在 近 几 年 中 以 惊人 的 速度 发 展 , 除 了 军事 、 安 全 方面 的 原因 外 ， 
最 主要 的 原动力 就 是 数字 作品 版 权 保护 的 需要 。 为 了 解决 日 趋 复杂 的 版 权 纠纷 问题 , 现 
代 版 权 法 中 出 现 了 所 谓 “ 技 术 措 施 ” 和 “权利 管理 信息 ”两 个 新 概念 。 技 术 措 施 和 权利 管 
理 信息 是 版 权 人 采取 的 权利 保护 及 标示 措施 ,这 两 个 新 概念 出 现在 版 权 法 中 ,是 版 权 保 
护 制度 在 新 技术 条 件 下 的 发 展 。 数 字 水 印 不 仅 可 以 作为 版 权 保 护 的 技术 措施 ,而 且 还 提 
供 了 对 版 权 管 理 信息 及 我 国 特 有 的 “行政 管理 信息 ”的 全 面 支持 。 

作为 一 项 关系 司法 认证 的 技术 ,尤其 是 作为 标示 行政 管理 信息 的 手段 ,数字 水 印 的 
标准 化 工作 十 分 重要 。 从 市 场 经 济 的 角度 看 ,水 印 技术 标准 化 还 意味 着 相应 产品 的 垄 
断 , 谁 的 技术 成 为 法 律 认可 的 标准 , 谁 就 理所当然 地 享有 巨大 的 市 场 份额 。 因 此 ,IBM、 
NEC 等 信息 产业 巨头 一 直 在 积极 参与 有 关 版 权 保 护 水 印 技术 标准 的 制定 工作 。 

1998 年 ,美国 版 权 保护 技术 组 织 CCPTWG) 成 立 了 数据 隐藏 小 组 (CDHSG ) ,着 手 制定 
版 权 保护 水 印 的 技术 标准 。 在 来 自 各 大 公司 的 7 份 技术 方案 中 ,DHSG 确定 了 其 中 三 个 
作为 候选 标准 。 这 三 个 方案 是 : 

(1) IBM 5j NEC 共同 制定 的 技术 方案 。 

(2) Macrovision, Digimarc 和 Philips 联合 制定 的 方案 。 

(3) Hitachi, Pioneer 和 Sony 共同 制定 的 方案 。 

虽然 DHSG 进行 了 大 量 的 技术 调研 ,但 它 并 没有 制定 技术 标准 的 权利 ,最 终 决定 数 
字 水 印 标准 的 是 美国 版 权 保护 顾问 委员 会 (CPAC)。IBM、HP、Apple、Microsoft、 Intel, 
Zoran, ATI Tech. , Mediamatics 和 STMicroelectronics 等 多 家 知名 企业 都 是 该 委员 会 的 
会 员 。 

尽管 至 今 还 没有 形成 数字 水 印 的 最 终 技术 标准 ,但 DHSG 已 经 明确 了 用 于 版 权 保护 
的 数字 水 印 必须 满足 的 一 些 基 本 条 件 , 包 括 : 

(1) 隐藏 于 数字 作品 中 且 不 可 感知 。 

(2) 可 以 被 专用 的 数字 电路 识别 。 

G) 不 必 获 取 完 整数 据 , 仅 从 数据 流 中 即 可 检测 到 数字 水 印 。 

(4) 可 以 标记 “未 曾 复制 “只 可 复制 一 次 ”和 “不 能 再 复制 "等 复制 信息 。 

(5) 漏 检 概 率 低 。 

(6) 水 印 内 容 ( 字 段 ) 的 设计 必须 合理 。 

(7) 必须 使 用 成 熟 的 技术 嵌入 或 检测 水 印 。 
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在 我 国 , 知 识 产 权 问 题 是 一 个 敏感 的 话题 ,只 有 深入 开展 数字 水 印 技术 的 研究 ,尽快 
制定 我 国 的 版 权 保护 水 印 标准 ,才能 使 我 们 在 未 来 可 能 的 国际 知识 产权 纠纷 中 取得 主 
动 权 。 

在 信息 时 代 , 数 字 作 品 的 销售 过 程 是 相当 复杂 的 ,其 过 程 可 以 简化 为 如 图 4-7 所 示 的 
过 程 。 创 作者 可 通过 销售 商 经 由 网 络 营销 系统 (如 Internet) 面 向 客户 进行 销售 。 然 而 ， 
在 网 络 传送 数字 作品 过 程 中 ,盗版 者 可 以 通过 信息 处 理 技术 复制 与 原作 品 完全 一 样 的 拷 
贝 ,或 者 盗版 者 对 其 进行 进一步 处 理 后 转卖 给 其 他 客户 。 作 为 购买 者 而 言 , 他 们 不 能 保 
证 得 到 真实 的 原创 数字 作品 ;而 作为 创作 者 和 销售 商 来 说 ,他 们 将 蒙受 巨大 的 经 济 损失 。 


创作 者 的 数字 作品 | fH  L—-| nemt ë — 客户 


NE, 


Yi Eco 
图 4-7 数字 产品 的 销售 过 程 


针对 数字 作品 的 销售 过 程 ,为 保证 原创 者 、 销 售 商 到 客户 的 合法 权益 .防止 盗版 的 产 
生 , 基 于 数字 水 印 的 数字 作品 保护 一 般 模型 如 图 4-8 所 示 。 


创作 者 A [—-| 版 权 登记 中 心 WR | 一 | 销售 商 $S ”六 一 一 客户 C 


| P 1 


Ps 数字 作品 AW 数字 作品 AW 数字 作品 AW 
数字 作品 AW 一 x 


| | | | 


kı k,*PINI htPIN2 K(WR)+PIN3 
图 4-8 基于 数字 水 印 的 数字 作品 保护 一 般 模型 


L—- 


设 数字 作品 的 创作 者 为 A, 版 权 登记 认证 中 心 为 WR, A 创作 出 数字 作品 后 ,向 WR 
进行 作品 登记 ,然后 选择 一 个 A 个 人 用 的 私 钥 k 向 期 望 保护 的 数字 作品 AW 嵌入 含有 
A 的 标志 (PIN1) 的 第 一 个 数字 水 印 Wi ,再 将 加 过 水 印 的 数字 作品 AW, 传 一 份 备份 给 
WR 的 数据 库 中 ,k, 由 A 的 口令 产生 ,具有 了 唯一 性 。 当 A 决定 将 其 数字 作品 授权 给 数字 
媒体 销售 商 S 时 ,让 S 销售 其 作品 的 复制 品 ( 即 拷贝 ) 时 ,A 需要 将 S 的 标志 (如 PIN2) 结 
合 私 钥 ki 对 数字 作品 嵌入 第 二 个 数字 水 印 W, ,以 表示 对 S 的 授权 和 认可 。S 得 到 加 有 
两 个 数字 水 印 标志 的 数字 作品 ,并 也 可 以 用 A 的 公 钥 ko 验证 A 确实 在 其 作品 的 拷贝 中 
加 入 了 S 的 标志 , 即 W:。S 作为 A 的 数字 作品 销售 商 ,可 以 应 用 检测 水 印 的 软件 ,验证 
第 二 个 水 印 的 内 容 和 第 一 个 水 印 的 内 容 , 但 S 并 不 感 兴趣 破坏 水 印 的 内 容 , 因 为 这 将 破 
坏 他 的 利益 o 

授权 的 S 将 数字 作品 售 给 授权 用 户 C ,为 证 明 C 经 过 授权 ,为 正版 用 户 ,S 用 WR 的 
私 钥 氏 (WR) 和 CC 的 标志 (PIN3) 对 作品 戏 入 第 三 个 水 印 Ws ,并 将 此 信息 通知 WR, WR 
发 给 S 一 个 证 书 , 给 A 增加 一 份 收益 。 在 此 过 程 中 WR 充当 认证 中 心 的 作用 。 
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4.3.5 内 容 认证 数字 水 印 技术 


由 于 内 容 认证 数字 水 印 要 检测 出 自 改 位 置 并 进行 定位 ,因此 ,通常 嵌入 的 水 印信 息 
是 与 原始 载体 内 容 相 关 的 信息 (但 也 可 以 是 不 相关 的 )。 其 嵌入 过 程 是 : 首先 对 原始 载体 
进行 特征 提取 并 以 此 来 构造 水 印信 息 , 再 将 水 印信 息 嵌 入 到 原始 载体 中 就 得 到 嵌入 水 印 
后 的 受 保护 数字 内 容 , 其 水 印 嵌 入 过 程 如 图 4-9 所 示 。 


原始 载体 | 


特征 提取 “| 一 | 水 印信 息 w [一 | KEDREA | 含水 印 载体 


! 


密 钥 
图 4-9 内 容 认 证 数字 水 印 的 嵌入 过 程 


图 像 内 容 认 证 过 程 如 图 4-10 所 示 。 对 数字 内 容 进行 认证 时 ,根据 密 钥 提 取出 受 保护 
图 像 中 的 水 印信 息 。 然 后 将 提取 出 来 的 水 印信 息 与 原始 水 印信 息 相 比较 , 若 二 者 一 致 ， 
则 图 像 未 被 更 改 ; 若 二 者 不 一 致 , 则 认为 图 像 已 被 更 改 ,并 给 出 有 关 图 像 改 动 的 详细 信 
息 。 如 果 艇 人 的 水 印信 息 是 与 原始 图 像 内 容 相 关 的 信息 ,并 确保 水 印 的 嵌入 不 会 改变 图 
像 的 这 些 内 容 特征 , 则 图 像 认 证 时 ,只 需 将 提取 出 的 水 印信 息 与 被 测 图 像 的 内 容 特 征 进 
行 比 较 。 目 前 各 种 水 印 认证 算法 主要 在 水 印信 息 的 生成 和 嵌入 两 个 过 程 存在 一 定 的 
差异 。 
水 印信 息 w 


待 检测 图 像 | 一 | _ 特 征 提取 


i 水 印信 息 w 


4-10 图像 内 容 认证 过 程 


4.3.6 可 道 水 印 技术 


可 道 数字 水 印 (reversible watermark) 技 术 属 于 数字 水 印 技术 的 一 个 分 支 , 目 前 大 多 
数 数字 水 印 的 方法 在 提取 出 所 嵌入 的 秘密 信息 后 ,原宿 主 信息 不 能 无 损 恢复 ,属于 有 损 
数字 水 印 技术 。 但 是 在 一 些 要 求 较 高 的 场合 ,如 医学 诊断 、 军 事 图 像 、 遥 感 图 像 处 理 和 法 
律 认 证 及 证 据 等 领域 , 则 往往 需要 精确 地 恢复 原 载 体 。 例 如 ,在 法 律 上 ,为 了 保证 法 律 的 
绝对 权威 性 和 强制 性 ,作为 证 据 的 数字 载体 对 象 的 丝毫 改变 都 将 可 能 影响 法 律 的 公正 
性 。 在 医学 成 像 领域 中 ,由 于 医生 对 图 像 的 错误 认识 会 产生 的 潜在 危险 ,使 得 即使 很 小 
的 图 像 修改 都 是 不 允许 的 。 在 军事 上 ,军事 图 像 分 析 专 家 可 能 需要 在 特殊 的 观察 条 件 下 
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检查 图 像 , 这 时 ,对 于 原始 载体 数据 的 微小 的 破坏 都 可 能 引起 严重 的 后 果 。 在 这 些 特殊 
的 应 用 场合 ,可逆 数 字 水 印 技术 作为 解决 这 些 问 题 的 一 个 有 效 途 径 而 得 到 了 重视 和 研 
究 。 为 此 很 多 学 者 已 开展 了 大 量 的 关于 可 逆 数 字 水 印 ( 也 叫 无 损 数 字 水 印 ) 方 面 的 研究 。 
可 逆 数 字 水印 要 求 通过 嵌入 信息 后 的 载体 ,不 仅 可 以 提取 该 载体 中 隐藏 的 秘密 信息 ,而 
且 还 可 以 实现 原始 载体 的 完全 恢复 重 构 。 


1. 可 逆 数 字 水 印 方法 分 类 


常见 的 可 逆 数 字 水 印 方法 可 分 为 基于 无 损 压 缩 的 可 逆水 印 方法 .基于 差 值 扩 展 的 可 
逆 数 字 水 印 方法 和 基于 直方 图 修改 的 可 逆 数 字 水 印 方法 等 。 

1) 基于 无 损 压 缩 的 可 逆 数 字 水 印 方法 

基于 载体 图 像 的 最 低 有 效 位 (Least Significant Bit,LSB) 无 损 压 缩 后 和 水 印信 息 一 
起 用 LSB 替换 做 入 到 载体 图 像 中 ,在 此 基础 上 随后 提出 了 一 种 G-LSB 方法 ,该 方法 首先 
将 图 像 量化 ,然后 将 量化 后 的 差 值 用 CALIC 无 损 压 缩 后 和 秘密 信息 一 起 嵌入 到 载体 图 
像 中 ,使 嵌入 量 大 大 提高 。 一 种 基于 哈 尔 小 波 的 可 递 数字 水 印 方法 ,该 方法 通过 将 变换 
域 中 高 频数 据 的 整数 部 分 进行 无 损 压 缩 后 , 和 秘密 信息 一 起 经 2 位 的 LSB 替换 嵌入 到 其 
高 频 整 数 部 分 ,在 该 方法 中 ,由 于 高 频 部 分 大 部 分 整数 部 分 一 般 较 小 ,基于 哈 尔 小 波 的 可 
逆 数 字 水 印 方法 的 嵌入 率 较 前 几 种 方法 有 所 提高 。 这 一 类 方法 的 嵌入 量 都 和 压缩 率 紧 
EXPE MN I 

2) 基于 差 值 扩展 (difference expansion) 的 可 道 数字 水 印 方法 。 

采用 整数 小 波 变换 和 差 值 扩展 的 方法 ,将 一 比特 数字 水 印 嵌 入 在 两 个 相 邻 的 像素 点 
中 ,所 以 嵌入 一 次 的 嵌入 率 约 为 0.5bpp。 基 于 整数 小 波 阔 值 的 可 逆 数 字 水 印 方法 将 秘密 
信息 嵌入 到 小 波 变换 后 的 根据 阔 值 选取 的 高 频 子 带 系 数 中 ,并 采用 直方 图 调整 的 方法 防 
止 数 据 的 溢出 。 对 差 值 扩展 技术 进行 改进 ,通过 低 通 滤波 单元 预测 要 扩展 的 位 置 , 所 以 
该 方法 对 数据 修改 量 小 ,同时 嵌入 量 也 不 高 。 通 过 对 像素 点 和 其 预测 值 的 差 值 提出 一 种 
基于 预测 误差 扩展 的 可 逆 信 息 方 法 ,取得 了 较 大 的 嵌入 率 。 随 后 有 人 提出 一 种 基于 中 心 
差 值 扩展 (centralized diference expansion) 的 方法 ,该 方法 根据 大 小 和 复杂 度 将 分 块 后 图 
像 块 分 为 四 类 ,然后 根据 不 同 的 情况 进行 自 适应 嵌入 ,该 方法 在 具有 较 好 的 隐藏 视觉 效 
果 的 同时 具有 较 高 的 嵌入 率 。 用 线性 预测 误差 扩展 和 改进 的 嵌入 /提取 算法 ,在 图 像 无 
损 编 码 压缩 过 程 中 嵌入 大 数据 量 的 秘密 信息 。 选 择 图 像 的 边缘 和 纹理 进行 差 值 扩展 嵌 
入 ,并 结合 压缩 性 非常 高 的 溢出 位 置 图 ,实现 了 高 视觉 质量 ,大 嵌入 容量 的 可 逆 数 据 隐藏 
算法 。 

3) 基于 直方 图 修改 的 可 逆 数 字 水 印 方法 

在 这 种 方法 中 ,首先 找到 直方 图 的 峰值 点 和 零点 ,然后 通过 直方 图 修改 将 秘密 信息 
嵌入 在 具有 峰值 点 灰 度 值 的 像素 点 中 。 该 方法 具有 很 高 的 峰值 信 噪 比 (PSNR) ,高 于 
48. 13dB, 但 一 般 情 况 下 嵌入 量 较 低 。 在 一 种 多 层 的 基于 差 值 图 像 直方 图 修改 的 可 逆 数 
字 水 印 方法 中 ,该 方法 首先 将 图 像 分 块 ,然后 在 各 个 子 图 像 块 中 采用 直方 图 修改 的 方法 
进行 隐藏 ,该 方法 具有 较 高 的 嵌入 率 , 然 而 其 密 钥 (各 个 子 图 像 块 的 峰值 点 ) 的 数据 量 巨 
大 ,如 果 去 除 密 钥 信息 量 ,该 方法 几乎 没有 什么 优势 可 言 。 在 一 种 基于 预测 和 差 值 直方 
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图 的 可 逆 数 字 水 印 方法 中 ,该 方法 首先 将 图 像 分 块 , 然 后 计算 图 像 块 中 各 个 像素 值 和 块 
中 间 像 素 点 的 差 值 , 并 计算 其 差 值 的 直方 图 ,采用 直方 图 修改 方法 将 秘密 信息 嵌入 在 该 
差 值 中 。 

第 三 种 方法 需要 附加 信息 的 信息 量 小 ,而 且 实 现 也 比较 简单 ,同样 引起 了 研究 者 的 
广泛 关注 。 此 外 ,还 出 现 了 一 些 具有 特殊 作用 的 可 逆 数 字 水 印 方法 ,如 对 JPEG 压缩 具有 
一 定 鲁 棒 性 的 可 逆 数字 水 印 方法 。 基 于 特定 图 像 格式 的 可 逆 数 字 水 印 方法 ,如 基于 VQ 
压缩 的 可 逆 数 字 水 印 方法 ,基于 JPEG 压缩 的 可 逆 数 字 水 印 方法 。 

可 逆 数 字 水 印 相 对 于 有 损 数字 水 印 , 具 有 如 下 优势 ,一 是 可 实现 原始 载体 的 无 损 恢 
复 , 因 此 可 逆 数 字 水 印 在 医学 军事 图 像 . 遥 感 图 像 处 理 和 法 律 认证 及 证 据 等 领域 具有 很 
强 的 应 用 价值 。 二 是 多 层 数 字 水 印 , 有 损 数 字 水 印 只 能 进行 一 层 数 字 水 印 , 因 为 如 果 将 
有 损 载 体 进行 二 次 隐藏 后 ,会 破坏 第 一 层 隐藏 的 数据 ,而 可 逆 数 字 水 印 由 于 其 可 完全 始 
载体 数据 ,所 以 可 实现 多 层 可 逆 数 字 水 印 。 


2. 可 逆 数 字 水 印 的 评价 指标 


可 逆 数 字 水 印 主 要 有 两 方面 的 性 能 评价 : 畸变 程度 和 嵌入 率 ( 隐 藏 量 ) 。 

1) 畸变 程度 

在 数字 水 印 方法 中 ,秘密 信息 的 嵌入 会 不 可 避免 地 使 秘密 信息 嵌入 后 的 载体 产生 一 
定 程 度 的 畸变 。 评 价 秘 密 信 息 嵌 入 后 的 不 可 见 性 有 两 种 方式 ,一 种 是 主观 评价 法 , 另 一 
个 是 客观 评价 法 。 主 观 评价 法 是 将 人 对 载体 的 感觉 分 为 几 个 等 级 ,然后 综合 几 十 个 人 对 
载体 的 直接 感觉 来 综合 评价 载体 的 质量 ,但 主观 评价 法 的 评价 结果 容易 受到 评价 者 主观 
因素 的 影响 ;因此 对 于 不 可 见 性 的 评价 需要 客观 的 评价 方法 。 常 用 的 方法 主要 有 均 方差 
和 峰值 信 噪 比 。 

峰值 信 噪 比 是 一 个 表示 信号 的 最 大 可 能 功率 与 影响 它 表 示 精 度 的 破坏 性 噪声 功率 
的 比值 。 峰 值 信 噪 比 越 大 ,说 明 数字 水 印 的 不 可 见 性 越 好 ,峰值 信 噪 比 越 大 ,说 明 载 体 的 
质量 降低 得 越 少 。 但 这 种 评价 没有 从 根本 上 反映 出 载体 处 理 前 后 在 视觉 上 的 变化 情况 。 
由 于 人 眼 的 视觉 特性 受到 外 界 条 件 的 影响 ,不 同 的 光照 度 、 不 同 的 背景 都 会 影响 人 眼 的 
感知 ,而 且 人 眼 对 图 像 是 一 个 整体 的 感知 ,周围 像素 点 会 影响 人 眼 对 该 像素 点 的 视觉 效 
果 。 总 之 ,峰值 信 噪 比 与 人 眼 的 视觉 并 没有 必然 的 相关 性 。 由 于 人 有 眼 是 数字 水 印 最 直接 
的 审判 者 ,所 以 用 峰值 信 噪 比 来 评价 隐藏 后 的 载体 效果 不 是 十 分 合适 ,但 目前 并 没有 其 
他 更 好 的 方法 可 用 ,通用 的 方法 是 采用 主观 评价 和 客观 评价 相 结合 的 方式 进行 综合 
评价 。 

2) 嵌入 率 

在 保证 被 隐藏 的 秘密 信息 不 可 见 的 情况 下 ,嵌入 量 也 是 极其 重要 的 。 嵌 入 量 就 是 嵌 
和 人 到 载体 中 的 秘密 信息 的 比特 数 。 在 一 般 的 可 道 数字 水 印 方法 中 ,常常 会 产生 附加 信 
息 。 所 谓 附 加 信息 是 指 为 了 恢复 原始 载体 ,需要 传送 给 接收 者 和 秘密 信息 一 起 谋 人 到 载 
体 中 的 信息 。 接 收 者 通过 附加 信息 将 秘密 信息 提取 出 来 并 恢复 原始 载体 。 嵌 入 量 可 以 
分 为 实际 嵌入 量 和 有 效 嵌 入 量 。 实 际 嵌 入 量 即 数字 水 印 方法 本 身 可 嵌入 的 比特 数 ,而 有 
效 戏 入 量 是 指 实际 可 隐藏 的 嵌入 量 再 减 去 附加 的 信息 量 。 如 果 骨 入 量 只 考虑 实际 嵌入 
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量 而 不 考虑 一 些 要 传送 给 接收 者 的 附加 信息 是 不 合理 的 。 
常用 来 衡量 有 效 戏 入 量 的 指标 是 敌人 率 ER(Embedding Rate) ,其 表达 式 为 : 


ER = Num. — Numes (yi /feature, bpf) (4413) 


Numa. 
IRP , Num. Az PLA, ERI fri E18 ECTS s Numo KA BRE fr E AY EERE RG Numae K 
示 图 片 载体 的 特征 点 个 数 。 这 里 的 feature 在 不 同 的 载体 对 象 中 有 不 同 的 表示 ,例如 在 
点 阵 图 像 中 为 像素 (Pixel) ,在 矢量 图 像 中 为 顶点 (Vertex) 。 符 入 率 可 以 较 直观 地 反映 一 
种 方案 嵌入 能 力 的 大 小 。 


3. 基于 差分 扩展 的 可 逆水 印 技术 


1) 差 值 扩展 的 基本 原理 

基于 差 值 扩展 的 可 逆 数 字 水 印 方法 最 早 是 在 2003 年 被 提出 来 的 ,秘密 信息 被 嵌入 
在 整数 小 波 域 的 高 频 系 数 ( 差 值 ) 上 ,为 了 防止 着 变换 后 数据 溢出 问题 的 出 现 , 需 要 选取 
合适 的 高 频 系 数 ,并 且 采 用 差 值 扩 展 的 方式 实现 秘密 信息 的 嵌入 。 此 外 ,为 了 实现 原始 
载体 图 像 的 无 损 恢 复 ,嵌入 的 位 置 图 记录 了 秘密 信息 嵌入 的 位 置 。 以 图 像 为 例 ,基于 差 
值 扩展 的 可 逆 数 字 水 印 方法 的 基本 步骤 是 将 图 像 分 成 像素 点 对 (z,y) ,其 中 zyEZ,0 近 
zy 之 255。 根 据 下 式 定 义 其 整数 均值 : 和 差 值 h: 
rc J 


[ = floor( ; 
h—xrx—y 
其 中 ,floor() 表 示 向 下 取 整 , 式 (4-13) 的 逆 变 换 为 : 


HH) 
2 


(4-14) 


r—lc floor( 


y=l— floor( 4) 
式 (4-14) 的 整数 变换 也 叫做 整数 Haar 小 波 变换 (Integer Haar Wavelet Transform, 
IHWT)。 该 整数 变换 在 整数 对 (z,y) 和 (1.h) 之 间 建 立 了 一 对 一 的 映射 。 
将 秘密 比特 信息 m DAE RD" REOR Jr CARIUS (HR 中: 
h =hX2+m (4-16) 
将 式 (4-16) 得 到 的 及 代入 式 (4-14) 中 ,得 到 新 的 图 像 像素 对 ,形成 诬 入 秘密 信息 后 
的 图 像 。 
为 了 保证 可 逆 隐 藏 后 的 数据 没有 溢出 , 设 载体 图 像 为 8 位 的 灰 度 图 像 ,可 根据 嵌入 
秘密 信息 后 的 恢复 值 不 能 超过 [0,255] 范 围 求 出 , 即 : 


(4-15) 


| A | 2L 1. 0x Ix 127 


0 < L+ tloo(^ E !]< 255 
(4-17) 
0xl— flor( 4) 255 
根据 上 式 , 可 推出 其 可 道 数 字 水 印 不 溢出 的 条 件 : 
li |x:2(255— D, 128x« 1x 255 (4-18) 
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由 于 嵌入 后 的 差 值 为 必 一 AX2 十 zz 将 其 代入 式 (4-14) 可 得 某 像素 点 对 进行 可 逆 数 

字 水 印 的 条 件 : 
| 2X h--b |S min(2(255 一 D52L 十 1 (4-19) 

在 差 值 扩 展 的 可 逆 数 字 水 印 方法 中 ,将 差 值 图 像 分 为 可 扩展 差 值 . 可 改变 而 不 可 扩 
展 差 值 和 不 可 改变 差 值 。 选 择 小 幅 值 的 差 值 作为 嵌入 位 置 , 这 样 可 减 小 图 像 的 畸变 。 根 
据 负 载 的 大 小 预先 设 定 一 个 冰 值 ,选择 小 于 该 效 值 的 可 扩展 差 值 为 候选 位 置 ,并 用 一 个 
斥 十 与 高 频 图 像 一 样 的 二 值 矩 阵 作为 嵌入 位 置 图 ,用 来 标识 可 扩展 和 非 可 扩展 的 差 值 位 
置 。 最 后 ,压缩 后 的 位 置 图 比特 流 需要 和 秘密 信息 一 起 嵌入 到 差 值 图 像 中 。 艇 入 完成 
后 ,进行 小 波 逆 变 换 , 可 得 到 嵌入 信息 后 的 图 像 。 

2) 差 值 扩展 方法 的 优 缺点 

总 结 差 值 扩展 的 可 逆 数 字 水 印 方法 ,具有 以 下 优点 : 

(D 算法 简单 ,容易 实现 。 只 要 对 原 差 值 乘 以 2, 再 进行 LSB 嵌入 即 可 实现 嵌 和 过程。 

© 差 值 数据 的 直方 图 自动 向 两 边 漂移 。 当 刀 大 于 等 于 0 时 (为 0 或 1), 可 以 证 明 
及 必 大 于 等 于 0; 当 有 小 于 0 时 ,h' 也 小 于 0。 图 像 的 像素 点 差 值 向 两 边 漂移 时 ,保证 每 对 
像素 点 的 值 相对 变化 均匀 。 

@ 满足 式 (4-19) 的 像素 点 对 的 个 数 决定 其 隐藏 量 。 对 于 一 般 图 像 , 相 邻 像素 点 具有 
高 相关 性 ,其 像素 点 对 的 差 值 一 般 较 小 ,不 难 满足 式 (4-19) ,其 隐藏 量 大致 可 认为 是 该 图 
像 分 成 的 像素 点 对 的 个 数 。 

由 于 基于 差 值 扩展 的 可 逆 数 字 水 印 具 有 算法 简单 ,容易 实现 , 且 隐藏 量 大 ,所 以 受到 
了 广泛 的 关注 。 然 而 , 它 仍然 还 存在 如 下 缺点 : 

CD 附加 信息 过 多 。 在 基于 差 值 扩展 的 可 逆 数 字 水 印 方案 中 ,采用 式 (4-16) 将 其 直方 
图 向 两 边 漂移 ,会 产生 较 多 的 附加 信息 ,而 且 情 况 比较 复杂 。 在 Tian 的 方案 ( 见 文献 
[23]) 中 ,将 图 像 分 成 了 几 种 状态 ,将 图 像 可 能 入 与 不 可 嵌入 信息 的 部 分 用 一 个 单 比特 标 
识 图 (bitmap) 来 标明 ,再 将 其 无 损 压 缩 后 ,作为 附加 信息 传输 。 

@ 盲目 地 扩展 。 将 差 值 都 乘 以 2 后 ,相当 于 将 所 有 差 值 的 直方 图 都 进行 了 移动 ,将 
满足 条 件 的 所 有 像素 点 对 形成 的 差 值 都 进行 隐藏 ,然而 对 于 出 现 较 少 个 数 的 差 值 也 留 出 
空位 隐藏 信息 ,这 是 没有 必要 的 ,因为 有 些 差 值 可 隐藏 的 数据 量 很 小 ,小 到 仅仅 有 几 比 
特 , 并 且 个 数 较 少 的 差 值 一 般 较 大 ,秘密 信息 扩展 嵌入 后 对 数据 的 改变 量 也 会 较 大 。 


4. 基于 直方 图 修改 的 可 逆 数 字 水 印 方法 


这 里 ,以 图 像 为 例 , 介 绍 一 种 基于 直方 图 修改 的 可 逆水 印 方法 的 基本 原理 。 水 印 嵌 
入 的 步骤 如 下 : 

CD 首先 计算 图 像 的 直方 图 ,并 找到 其 中 的 零点 , 记 为 =。 零 点 指 的 是 图 像 中 没有 任 
何 一 点 的 灰 度 值 等 于 z=。 然后 找到 直方 图 的 峰值 点 , 记 为 p。 峰 值 点 指 的 是 图 像 中 具有 
像素 点 最 多 的 灰 度 值 。 为 了 方便 叙述 ,不 妨 假设 pz. 

© 由 上 到 下 由 左 到 右 扫 描 图 像 中 的 各 个 像素 点 ,各 个 像素 点 的 灰 度 值 用 vi dem 
vs 过 p 或 vs 记 z 时 ,像素 点 的 值 保 持 不 变 , 即 vy — v; ; 当 p vs <z 时 ,像素 点 的 灰 度 值 加 
1, 即 wv 二 vi 十 1。 图 4-11 给 出 了 图 像 Lena 的 直方 图 的 峰值 点 及 漂移 后 的 直方 图 。 
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| 峰值 点 mpra] 


50 100 150 200 250 
灰 度 值 灰 度 值 


100 150 200 


(a) Lena 图 像 的 直方 图 (b) 潭 移 后 的 直方 图 
图 4-11 原始 直方 图 和 漂移 后 的 直方 图 


© 图 像 中 灰 度 值 等 于 峰值 点 ( 即 o; ==p) 的 像素 点 ,为 可 租 入 秘密 信息 的 点 ,将 秘密 
信息 转化 为 二 进 制 流 , 用 s 表示 。 顺 序 嵌 入 信息 后 得 vj 二 vi tso 

@ 得 到 的 由 灰 度 值 地 组 成 的 图 像 就 是 嵌入 秘密 信息 后 的 图 像 。 同 时 p、z 以 密 钥 的 
形式 保存 。 

C) 可 能 会 造成 一 些 像 素 点 灰 度 值 变化 过 大 ,譬如 在 图 像 的 边缘 或 变化 不 平滑 的 图 像 
区 域 ,像素 点 对 做 差 得 到 的 h 值 可 能 较 大 ,这 样 ,采用 式 (4-16) 扩 展 后 的 及 的 变化 也 就 会 
较 大 ,单个 的 点 对 发 生变 化 较 大 ,因此 对 原始 图 像 的 修改 量 较 大 ,使 PSNR 大 大 降低 。 

该 方法 的 隐藏 量 为 直方 图 峰值 量 ,并 且 该 方法 对 载体 图 像 每 个 像素 点 的 修改 量 最 大 
为 1。 因此 ,根据 峰值 信 品 比 的 定义 可 知 : 
MX N X 255? 
MXNx1* 
即 在 最 坏 的 情况 下 ,峰值 信 噪 比 PNSR— 48. 13dB。 

秘密 信息 提取 和 原始 图 像 的 恢复 过 程 如 下 : 

CD 读 取 密 钥 ,得 到 pz 的 值 。 

© 逐 行 扫描 图 像 , 各 个 像素 点 的 灰 度 值 同样 用 vw 表示 。 当 vi — p 时 ,说 明 该 点 为 隐 
藏 信息 的 点 ,提取 信息 “0” 并 保持 该 点 灰 度 值 不 变 ; 当 v; 二 p 十 1 时 ,该 点 也 为 隐藏 信息 的 
点 ,提取 秘密 信息 “1” 并 使 该 像素 点 灰 度 值 减 1, 即 v; — v; 一 1。 

© OH vj — p 或 v; 记 z 时 ,像素 点 的 值 保持 不 变 , 即 v; — v4 ; 当 pp 一 1 二 vj 二 z 时 ,像素 
点 的 灰 度 值 减 1, 即 vh =v l 

@ 得 到 的 由 灰 度 值 起 组 成 的 新 图 像 就 是 提取 秘密 信息 后 的 恢复 出 来 的 载体 图 像 。 

该 方法 可 实现 可 逆 信 息 隐 藏 , 是 一 种 有 效 的 可 逆 信 息 隐藏 方法 。 

基于 直方 图 修改 的 可 逆 数 字 水 印 方法 具有 以 下 优点 : 

CD 产生 较 少 的 畸变 ,具有 较 高 的 峰值 信 噪 比 。 如 前 所 述 , 嵌 入 一 次 后 其 峰值 信 噪 比 
不 低 于 48. 13dB。 

(2) 该 方法 直接 在 空域 中 应 用 不 会 产生 数据 溢出 问题 。 该 方法 的 数据 溢出 问题 较 容 
易 解决 ,因为 其 溢出 的 形式 单一 、 容 易 判断 。 

(3) 对 于 某 些 含有 大 量 相同 背景 的 图 像 具 有 较 高 的 嵌入 率 。 这 对 于 一 些 数字 医学 图 
像 具 有 很 好 的 应 用 效果 。 


PSNR > lolg[ ]= 48. 13(dB) 
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当然 ,基于 直方 图 修改 的 可 逆 数 字 水 印 方法 也 存在 缺点 : 由 于 图 像 直方 图 的 直接 使 
用 ,因此 其 戏 入 率 不 稳定 ,对 于 一 般 图 像 嵌 入 率 较 低 ,因为 该 方法 中 载体 图 像 的 直方 图 的 
峰值 直接 决定 其 嵌入 量 。 

例 4-2 给 定 8 位 的 大 小 为 515X512 的 载体 图 像 ( 见 图 4-12) , 表 4-2 给 出 了 其 相应 
的 隐藏 后 的 峰值 信 噪 比 及 嵌入 率 , 由 表 可 见 只 有 当 载 体 图 像 为 Jet 时 ,其 嵌 人 率 为 
0.0317bpp, 而 对 于 其 他 三 幅 图 像 , 嵌 入 率 都 只 有 0.0105bpp, 嵌 入 率 较 低 。 


(d) Jet 


图 4-12 原始 图 像 


表 4-2 直方 图 修改 的 隐藏 结果 


载体 图 像 Lena Jet Pepper Baboon 
PSNR(dB) 53.94 54.48 50.08 50. 94 
HEX E Cbpp) 0. 0105 0.0317 0.0105 0.0105 


由 以 上 分 析 可 见 , 基 于 直方 图 修改 的 可 逆 信 息 隐藏 方法 具有 较 好 的 不 可 见 性 ,但 是 说 
和 人 率 较 低 。 为 了 使 其 嵌入 率 提高 ,其 直方 图 的 峰值 点 应 具有 和 较 高 的 峰值 。 由 于 对 于 大 多 数 
图 像 ,其 相 邻 像素 点 的 灰 度 值 具 有 极 大 的 相关 性 ,因此 许多 改进 方法 的 思想 多 集中 于 此 。 

差 值 扩展 是 把 图 像 分 成 像素 点 对 ,将 秘密 信息 隐藏 在 该 像素 点 对 中 。 利 用 该 思想 ， 
计算 像素 点 对 的 直方 图 ,其 差 值 的 直方 图 通常 具有 很 高 的 峰值 ,而 且 其 值 很 紧凑 , 均 集中 
在 零 值 附近 ,具有 很 好 的 聚集 性 。 对 大 量 的 图 像 进行 了 同样 的 统计 实验 ,结果 表明 所 得 
到 的 差 值 图 像 的 直方 图 具有 如 下 共同 特点 : 

CD 差 值 直方 图 的 零点 较 多 , 且 多 分 布 在 两 端 。 

(2) 差 值 直方 图 的 峰值 点 一 般 较 小 。 

(3) 差 值 的 集中 度 增 大 ,具有 较 高 的 峰值 点 ,而且 其 峰值 比 原始 图 像 的 直方 图 峰值 高 
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得 多 。 
根据 以 上 的 特点 ,可 以 对 原 有 的 直方 图 修改 做 如 下 改进 ， 

(1) 选择 无 穷 远 处 为 其 差 值 直方 图 的 零 值 点 。 已 知 直 方 图 修改 法 的 零 值 点 和 峰值 点 
是 要 以 密 钥 的 形式 传 到 接收 端 。 当 在 一 个 峰值 隐藏 时 ,采取 以 下 方法 让 尽量 少 的 点 发 生 
移动 : 当 在 (0,255) 区 间 内 的 值 较 少时 ,可 选择 正 无 穷 远 处 为 零 值 点 ;: 当 在 (一 255,0) 区 间 
内 的 值 较 少 时 ,可 选择 负 无 穷 远 处 为 零 值 点 。 由 于 密 钥 越 少 越 好 , 若 将 零点 设 为 无 限 远 ， 
密 钥 就 不 必 再 包含 零点 信息 ,这样 可 使 密 钥 的 长 度 减少 一 半 。 

(2) 可 选择 两 个 或 多 个 峰值 进行 可 逆 信 息 隐藏 。 由 于 直方 图 的 峰值 一 般 在 中 间 , 当 
利用 一 个 峰值 隐藏 时 ,图 像 中 将 有 一 半 的 像素 点 发 生 漂移 。 当 利用 两 个 峰值 时 ,可 以 选 
用 正 负 无 穷 远 处 的 零点 ,分 别 利 用 较 大 的 峰值 点 和 正 无 穷 远 处 的 零点 、 较 小 的 峰值 点 和 
负 无 穷 远 处 的 零点 进行 两 次 隐藏 ,这 样 每 次 可 嵌入 两 个 最 大 峰值 和 的 隐藏 量 ,并 且 保证 
了 每 一 个 像素 点 的 改变 量 都 小 于 等 于 1。 当 利用 两 个 峰值 进行 隐藏 时 ,最 低 的 峰值 信 品 
比 PSNR 为 48. 13dB。 然 而 ,如果 选用 两 个 以 上 的 峰值 进行 可 逆 信 息 隐 藏 时 ,其 最 低 的 
峰值 信 品 比 将 比 48. 13dB 小 。 

(3) 可 以 进行 多 层 隐 藏 。 当 隐藏 数据 较 多 的 时 候 , 进 行 一 层 隐藏 满足 不 了 要 求 , 有 以 下 
两 种 增加 隐藏 量 的 方案 : 一 种 是 多 峰值 隐藏 ;一 种 是 多 层 隐 藏 。 如 果 每 层 嵌 入 时 都 采用 两 
个 峰值 进行 隐藏 ,那么 进行 两 层 隐 藏 时 ,像素 点 灰 度 值 的 改变 量 为 2, 其 最 低 的 峰值 信 噪 比 
变 为 : 

MXN X 255? 
MXNX2 


同 理 可 计算 出 当 进 行 n 层 隐藏 时 ,每 层 选 用 两 个 峰值 点 ,并 分 别 以 正 负 无 穷 远 为 零 值 点 
进行 隐藏 时 的 峰值 信 品 比 的 最 低 值 (如 表 4-3 所 示 )。 
表 4-3 改进 的 直方 图 隐藏 结 果 
隐藏 层 数 1 2 3 4 5 6 7 
PSNR(dB) | 48.13 42.11 38.58 36.09 34.15 32.57 31.23 


PSNR > lolg[ F 42. 11 (dB) 


dé 4-3 比较 了 直接 采用 直方 图 修改 和 进行 差 值 后 采用 直方 图 修改 的 可 逆 信 息 隐 藏 方 
法 ,在 选用 一 个 峰值 ,但 载体 图 像 不 同时 的 嵌入 率 和 峰值 信 噪 比 。 由 表 4-4 可 见 , 差 值 后 
进行 直方 图 修改 的 可 逆 信 息 隐 藏 方法 (Histogram Modification based on Difference. 
HMD) 的 嵌入 量 远 远 高 于 直接 采用 直方 图 修改 的 可 逆 信 息 隐藏 方法 (HM) ,两 种 方法 的 
峰值 信 品 比 基 本 相同 ,尤其 对 于 比较 平滑 的 图 像 。 


表 4-4 两 种 可 逆 信 息 隐 藏 方法 的 效果 比较 


载体 图 像 Lena Airplane Sailboat Baboon 

方法 HM HMD HM HMD HM HMD HM HMD 
RAE) | 2726 20283 7905 31209 3707 15004 2757 8385 
PSNR(dB) 53.70 | 51.93 | 50.61 52.55 53.78 | 51.69 50. 61 51.43 
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5. 变换 域 中 可 逆 数 字 水 印 方法 的 研究 


可 逆 数 字 水 印 要 求 在 提取 出 秘密 信息 的 同时 可 无 损 恢 复原 载体 ,这 样 就 要 求 在 数据 
变换 即 秘密 信息 嵌入 过 程 中 就 需要 没有 小 数 舍 人 ,否则 很 难保 证 嵌入 秘密 信息 后 的 载体 
数据 的 值 都 保持 为 整数 。 以 图 像 为 例 , 当 嵌入 信息 在 频 域 上 做 出 修改 ,再 乘 以 着 变换 抑 
Vg ,就 会 使 隐藏 秘密 信息 后 的 图 像 的 灰 度 值 出 现 小 数 ,这 样 就 必须 用 舍 人 方式 把 图 像 变 
成 整数 形式 ,这 样 的 变换 会 使 数据 受 损 ,这 些 对 数据 的 破坏 无 法 保证 提取 的 秘密 信息 不 
受到 影响 。 所 以 现 有 的 基于 变换 域 的 可 道 数字 水 印 方法 一 般 都 采用 整数 变换 , 即 变换 与 
逆 变 换 都 为 整数 变换 。 

1) 变换 域 中 可 逆 数 字 水 印 的 实现 

有 些 变换 可 实现 可 道 数字 水 印 , 而 有 些 变换 却 不 能 实现 。 在 二 维 图 像 中 ,对 图 像 的 
变换 通常 是 对 图 像 矩 阵 左 乘 . 右 乘 或 者 既 左 乘 又 右 乘 的 变换 ,这 里 ,以 左 乘 一 个 矩阵 为 例 
进行 说 明 : 

S= TC 
式 中 ,T 为 转换 矩阵 ,C 为 原始 矩阵 ,$ 为 变换 后 的 矩阵 。 

在 变换 域 中 采用 差 值 扩展 的 方法 实现 可 逆 数 字 水 印 , 相 当 于 在 图 像 的 高 频数 据 的 整 
数 部 分 乘 以 2 后 加 上 秘密 信息 后 作为 该 数据 的 新 的 整数 部 分 。 所 以 矩阵 中 每 一 个 数据 
的 整数 部 分 的 变化 可 近似 为 : 

A=2Xh+b—h=h+b 

T 2E Pk P RH ELD E ac 77 1 SE 9 nT 30 57K ER» 19677 P I8] Fr Ee EIE 9 Jc 
数据 加 1, 直方 图 向 左 漂移 ,对 应 的 数据 减 1 ,嵌入 信息 的 点 则 变化 0 或 1。 

上 述 两 种 方法 有 一 个 共同 的 特点 , 即 原始 数据 以 1 为 最 小 单位 变化 。 设 变换 域内 的 
原始 矩阵 为 $, 嵌 入 秘密 信息 后 的 矩阵 为 S ,嵌入 信息 的 过 程 就 可 以 看 做 是 在 S EXT 
一 个 也 矩阵 (DGi,))EZ)。 因 此 ,无 论 在 空域 或 变换 域 ,嵌入 的 数学 模型 可 写 为 : 

S =S+D (4-20) 
其 逆 变 换 为 ; 
C 一 1 一 TS 十 D) 一 C 十 TD (4-21) 

如 果 在 变换 域 中 利用 差 值 扩展 直方 图 修改 或 者 压缩 整数 部 分 的 方法 实现 可 道 数字 
水 印 ,必须 保证 C' 为 整数 ,由 式 (4-21) 可 见 , 只 要 T7 D 为 整数 ,就 可 保证 C 为 整数 ,由 于 
D 为 附加 的 整数 矩阵 ,所 以 只 要 矩阵 T 中 所 有 的 元 素 都 为 整数 ,就 可 以 保证 TD 为 
整数 。 

如 果 变 换 矩 阵 的 逆 和 矩阵 中 的 元 素 都 为 整数 ,可 采用 压缩 直方 图 修改 或 者 差 值 扩展 
的 方法 在 其 变换 后 的 数据 的 整数 部 分 嵌入 秘密 信息 后 ,再 经 其 逆 变 换 , 就 可 得 到 不 经 任 
何 近似 的 只 有 整数 的 图 像 数 据 , 从 而 实现 可 逆 数 字 水 印 。 

2) 小 波 分 析 中 的 变换 矩阵 

对 于 两 个 数据 ab. H Haar 离散 小 波 变换 的 过 程 可 表示 为 : 
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(4-22) 


式 中 ,L 表示 低频 参数 ,有 表示 高 频 参 数 。 

二 维 Haar 离散 小 波 变换 是 利用 一 维 小 波 变换 的 | ”| P | Haag | | 下 
方式 先 按 行 变换 得 到 志和 互 两 个 频带 ,再 按 列 进行 | e| a LH | HH 
变换 ,得 到 LL、LH、HL、HH MAKR A abcd 
四 个 数据 构成 的 二 维 数据 ,变换 结果 为 图 4-13 所 示 ， 


图 4-13 Haar 小 波 变 换 示意 图 


其 变换 可 表示 为 : 
LL=4tb+c+d 
2 
LH — 4 t5—c—d 
? (4-23) 
HL = 2 一 十 < 一 4d 
2 
| a—b—c-cd 
HH = 一“ 
这 是 一 个 线性 变换 ,可 写成 矩阵 形式 : 
D |-| “AE A vl ius 
LH HH 42 —i/42]te 44/42 —u/42 


式 中 ,对 原始 的 像素 点 进行 的 行 和 列 的 变换 相同 ,相当 于 对 原始 的 矩阵 左 乘 一 个 Haar 变 
换 矩 阵 ,再 右 乘 一 个 Haar 变换 矩阵 的 转 置 。 通 过 对 变换 矩阵 求 逆 , 易 得 到 Haar 逆 变 换 
表达 式 : 
E H We e T el ads 

c d 1/42 —1/42]|LH HHJ[1/42 —1/42. 

该 变换 可 实现 可 逆 数 字 水 印 , 因 为 其 逆 变 换 后 的 元 素 均 为 整数 ,这 也 符合 前 面 的 
结论 。 

3) 基于 变换 矩阵 的 可 道 数字 水 印 实 例 

由 上 可 知 ,将 图 像 进行 Harr 小 波 变换 以 后 ,可 通过 修改 其 变换 域 中 整数 部 分 的 直方 
图 来 实现 可 逆 数 字 水印 。 首 先 将 图 像 进行 小 波 变换 ,然后 利用 直方 图 修改 的 方法 用 其 高 
频 部 分 (LH HL.HH) 的 整数 部 分 隐藏 秘密 信息 ,从 而 实现 可 逆 数 字 水 印 。 

对 相 邻 2X2 大 小 的 图 像 块 分 别 进行 如 下 计算 : 


S=H.C.H' (4-26) 
式 中 ,H" 表示 H 的 转移 矩阵 。 
当 取 参数 
pe pes ul PETS 
1/2 —1/2 


时 ,其 可 道 数字 水 印 的 统计 结果 如 表 4-5 所 示 。 


表 4-5 当 变换 矩阵 选 式 (4-27) 时 隐藏 的 统计 结果 
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载体 图 像 Lena Jet Pepper Baboon 
PSNR(dB) 44. 2715 45. 4938 44. 1485 46. 1267 
HE E (bpp) 0. 3324 0. 4805 0. 2752 0. 1989 


同 理 , 根 据 该 条 件 还 可 以 构建 4X4 大 小 的 变换 矩阵 ,如 式 (4-28) 所 示 。 该 变换 矩阵 


同样 满足 变换 条 件 ,因为 HT!' 中 的 元 素 都 为 整数 。 


1 


= 


-—1 


(4-28) 


将 该 矩阵 代入 式 (4-26) 计 算 , 也 可 实现 可 逆 数 字 水 印 , 其 隐藏 的 结果 如 表 4-6 所 示 。 
表 4-6 变换 矩阵 为 式 (4-28) 时 隐藏 的 统计 结果 


载体 图 像 Lena Jet Pepper Baboon 
PSNR(dB) 37.43 37.45 37.42 36.94 
嵌入 率 (bpp) 0.5788 0.6271 0. 5280 0. 2597 


当选 取 式 (4-28) 进 行 变换 时 ,由 于 该 变换 矩阵 的 大 小 为 4X4, 将 其 代入 式 (4-26) ,将 
会 产生 一 个 低频 数据 和 15 个 高 频数 据 。 这 样 图 像 点 总 数 的 15/16 为 高 频数 据 , 直 方 图 
修改 正 是 统计 了 这 些 数 据 实 现 了 可 逆 数 字 水 印 。 若 利用 式 (4-27) 计 算 可 得 到 占 总 数 3/4 
的 高 频数 据 , 在 变换 后 的 数据 中 可 从 图 像 点 总 数 的 3/4 个 数据 进行 统计 隐藏 ,实现 可 道 
数字 水 印 。 由 于 其 利用 的 数据 量 较 少 ,所 以 嵌入 量 也 相应 会 较 少 。 对 于 较 平 滑 的 载体 图 
像 , 如 Jet, 其 差 值 数据 集中 ,所 以 嵌入 量 较 大 ;对 于 不 平滑 的 载体 图 像 , 如 Baboon, 相 邻 像 
素 点 间 的 相关 性 相对 较 小 ,产生 的 高 频数 据 就 不 集中 ,其 高 频 的 整数 部 分 的 峰值 会 下 降 ， 
影响 其 嵌入 率 。 虽 然 采 用 阶 数 较 大 的 变换 矩阵 其 嵌入 率 较 大 ,但 其 峰值 信 噪 比 也 下 降 
较 快 。 


4.3.7 软件 水 印 技术 


软件 水 印 (software watermarking) 是 嵌入 到 程序 当中 的 秘密 消息 ,这 些 消 息 要 求 能 
够 方便 可 靠 地 提取 出 来 ,以 证 明 软 件 的 所 有 权 , 并 且 具 有 在 保证 程序 功能 的 情况 下 不 能 
或 者 是 难以 去 除 该 消息 的 功能 。 根 据 水 印 的 提取 技术 ,可 将 软件 水 印 分 为 静态 水 印 和 动 
态 水 印 ( 见 图 4-14) 。 静 态 水 印 存储 在 可 执行 的 程序 代码 中 ,比较 典型 的 是 把 水 印信 息 放 
在 安装 模块 部 分 ,或 者 是 指令 代码 中 ,或 者 是 调试 信息 的 符号 部 分 。 对 于 Java 程序 ,水 印 
信息 也 可 以 隐藏 在 类 文件 (包括 常量 池 表 、 方 法 表 、 行 号 表 ) 的 任何 部 分 中 。 静 态 水 印 又 
可 以 进一步 分 为 静态 数据 水 印 和 静态 代码 水 印 。 区 别 于 静态 水 印 ,动态 水 印 保存 在 程序 
的 执行 状态 中 ,而 不 是 程序 源 代 码 本 身 。 这 种 水 印 可 用 于 证 明 程 序 是 否 经 过 了 迷 乱 变换 
处 理 。 动 态 水 印 主 要 有 3 类 : 执行 状态 水 印 数据 结构 水 印 和 Easter Egg 水 印 ( 复 活 节 


98 Qi asstunssa 


彩蛋 水 印 ) 。 其 中 ,每 种 情况 都 需要 有 预先 输入 ,然后 根据 输入 ,程序 会 运行 到 某 种 状态 ， 
这 些 状 态 就 代表 水 印 。 


软件 水 印 
I 


静态 水 印 动态 水 印 
I 


数据 水 印 代码 水 印 | [ 数据 结构 水 印 | || Easter Egg 水 印 


执行 状态 水 印 


图 4-14 软件 水 印 分 类 


1. 静态 数据 水 印 


静态 数据 水 印 很 容易 产生 和 识别 ,是 一 种 常见 的 水 印 。 这 种 水 印 可 以 在 程序 中 的 一 
些 数据 中 体现 出 来 ,因而 很 容易 被 迷 乱 攻击 破坏 。 比 如 把 所 有 的 数据 分 解 成 一 系列 数 
据 , 然 后 散布 到 整个 程序 中 ,这 样 代表 水 印信 息 的 数据 也 被 分 解 , 增 加 了 水 印 检测 的 难 
度 ;或 者 用 一 个 产生 这 些 数据 的 子 程序 来 代替 这 些 数据 ,这 样 在 程序 中 就 找 不 到 该 数据 
的 原型 ,也 就 无 法 检测 水 印 。 


2. 静态 代码 水 印 


利用 人 类 视觉 和 听 党 的 不 敏感 性 ,多 媒体 水 印 通常 是 加 在 载体 上 的 元 余部 分 。 也 可 
以 用 相同 的 方式 来 构造 代码 水 印 , 因 为 目标 代码 也 包含 了 宛 余 信息 。 例 如 通过 调整 两 条 
无 依赖 关系 指令 的 顺序 可 以 嵌入 1 比特 的 水 印信 息 。IBM 提出 了 一 种 把 寄存 器 出 人 栈 
的 顺序 作为 水 印 的 方法 ,同样 可 以 通过 排列 有 m 个 分 支 的 case 语句 的 顺序 来 编码 
log(m!) 比 特 信息 。Davidson 描述 一 种 类 似 的 代码 水 印 , 它 在 程序 的 控制 流 图 的 一 个 基 
本 模块 中 对 软件 的 序列 号 进行 编码 。 

许多 代码 水 印 都 经 不 起 一 些 简单 的 水 印 攻击 (如 调整 指令 的 顺序 )。 既 然 交 换 指令 
的 顺序 不 影响 源 程序 ,那么 就 可 以 把 源 代 码 中 所 有 满足 这 个 条 件 的 指令 都 交换 位 置 ,这 
样 就 无 法 检测 到 先前 加 入 的 水 印 了 。 

很 多 代码 迷 乱 技术 能 够 破坏 代码 水 印 。 对 于 Davidson 的 方法 ,只 要 能 够 准确 地 找到 
控制 流 图 的 基本 模块 ,就 能 很 容易 通过 插入 一 个 布尔 值 始终 为 TRUE 的 条 件 分 支 破坏 这 
个 基本 模块 ,导致 水 印 无 法 检测 。 迷 乱 变 换 会 破坏 所 有 静态 结构 水 印 。 内 艇 、 循 环 变换 
都 是 常见 的 优化 技术 ,但 这 些 技术 也 很 容易 破坏 静态 代码 水 印 。Moslkowitz 提出 了 一 种 
具有 防 算 改 的 水 印 算法 ,其 基本 思想 是 把 关键 代码 的 一 部 分 隐藏 在 软件 的 资源 (如 图 标 、 
声音 ) 中 ,并 且 程 序 会 不 时 地 从 资源 中 提取 出 这 段 代码 执行 ,如 果 资 源 被 破坏 ,那么 程序 
就 会 出 错 。 

静态 代码 水 印 更 难 抵 抗 语义 保持 变换 攻击 。 出 于 安全 考虑 ,Java 程序 不 能 检测 自己 
的 代码 ,例如 : 


if (instruction # 100!= "add") exit() 
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在 Java 语法 中 是 不 允许 的 ,虽然 在 其 他 语言 ( 如 C 语言 ) 中 是 可 能 的 。 但 是 由 于 这 种 语句 
的 特殊 性 , 它 要 检查 指令 ,因此 很 容易 找到 这 种 语句 在 程序 中 的 位 置 。 

总 之 ,尽管 静态 水 印 比 较 简单 ,但 是 由 于 它 容 易 遭 到 破坏 、 鲁 棒 性 不 好 ,因而 没有 得 
到 广泛 的 应 用 。 


3. Easter Egg 水 印 


Easter Egg 水印 无 须 检测 , 它 通 过 一 个 输入 产生 一 个 输出 。 比 如 输入 一 个 字符 串 ， 
然后 屏幕 上 就 显示 出 版 权 信息 或 一 幅 图 像 。Easter Egg 水 印 的 主要 问题 是 水 印 在 程序 
中 的 位 置 很 容易 找到 ,一 旦 输入 正确 的 信息 ,用 softice 这 样 的 标准 调试 软件 就 可 以 跟踪 
程序 执行 情况 ,进而 找到 水 印 的 位 置 ,所 以 这 种 水 印 的 安全 性 不 高 。 


4. 动态 数据 结构 水 印 


这 种 水 印 的 原理 是 : 输入 特定 信息 激发 程序 把 水 印信 息 隐 藏 在 堆 、 栈 或 者 全 局 变量 
域 等 程序 状态 中 。 当 所 有 信息 都 输 完 之 后 ,通过 检测 程序 变量 的 当前 值 来 进行 水 印 提 
取 。 可 以 安排 一 个 提取 水 印信 息 的 进程 或 在 调试 器 下 运行 程序 查看 变量 的 取 值 。 

与 Easter Egg 水印 不 同 的 是 ,动态 数据 水 印 没有 输出 ,而 且 水 印 的 提取 过 程 不 是 封 
装 在 应 用 程序 中 ,因而 不 容易 找到 水 印 在 程序 中 的 位 置 ,但 是 这 种 水 印 也 经 不 住 迷 乱 变 
换 的 攻击 。 


5. 动态 执行 过 程 水 印 


动态 执行 过 程 水 印 是 当 程序 在 特定 的 输入 下 运行 时 ,对 程序 中 指令 的 执行 顺序 或 内 
存 地 址 的 走向 进行 编码 生成 水 印 。 水 印 检测 则 通过 控制 地 址 和 操作 码 顺序 的 统计 特性 
来 进行 。 

软件 水 印 是 近年 来 才 出 现 的 软件 版 权 保护 技术 , 它 把 程序 的 版 权 信息 和 用 户 身份 信 
息 嵌 入 到 程序 中 ,用 来 标志 作者 、 发 行者 、 所 有 者 、 合 法 使 用 者 等 ,并 携带 版 权 信息 和 身份 
认证 信息 ,可 以 鉴别 出 非法 复制 和 盗用 的 软件 产品 。 它 甚至 被 认为 是 数字 作品 内 容 保护 
的 最 后 一 道 防线 。 

从 软件 水 印 的 用 途 来 看 ,有 以 下 一 些 应 用 : 

CD 软件 版 权 申 明 (authorship): 通过 软件 水 印 申 明 软 件 的 版 权 ,软件 中 的 水 印信 息 
可 以 被 合法 的 用 户 ( 公 开水 印 密 钥 ) 提 取 。 软 件 用 户 可 以 通过 该 水 印 判 断 所 使 用 的 软件 
是 否 为 正版 软件 。 

(2) 软件 版 权证 明 (authentication): 通过 软件 水 印证 明 软 件 的 版 权 ,软件 中 的 水 印 
信息 仅 能 被 软件 开发 者 (拥有 水 印 密 钥 ) 提 取 ,该 水 印信 息 可 以 证 明 软 件 的 所 有 权 。 当 两 
个 公司 都 称 软件 是 自己 公司 的 软件 时 ,软件 版 权证 明 水 印 可 以 证 明 软 件 的 所 有 权 , 从 而 
揭穿 盗版 者 的 谎言 。 

(3) 盗版 源 的 跟踪 : 在 分 发 给 不 同 用 户 的 软件 中 给 入 的 水 印信 息 各 不 相同 (不 同 的 
信息 是 软件 的 指纹 ) , 当 盗 版 行为 发 生 时 ,可 以 根据 软件 的 指纹 寻找 盗版 软件 是 从 哪个 用 
户 流传 出 去 的 ,从 而 定位 盗版 源 。 
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(4) 非法 复 用 软件 模块 的 发 现 : 如 果 整 个 软件 被 盗用 ,常常 是 很 容易 发 现 的 :但 当 仅 
有 某 个 模块 被 非法 复 用 时 ,常常 是 难以 发 现 的 ,软件 水 印 可 以 用 于 发 现 与 检测 这 种 情况 
下 的 盗版 行为 。 

(5) 盗版 自 报告 : Easter Egg 软件 水 印 利用 了 软件 可 运行 的 特点 ,把 水 印 检测 器 内 
入 到 软件 当中 , 当 检 测 器 运行 时 ,可 以 通过 检查 软件 的 生存 环境 (如 主机 IP 等 ) ,判断 该 
软件 的 生存 环境 是 否 构 成 盗版 行为 ,进而 在 可 能 的 情况 下 通过 网 络 主动 报告 盗版 行为 。 

(6) 盗版 自发 现 : 随 着 计算 机 网 络 的 迅速 发 展 ,通过 网 络 分 发 软件 成 为 可 能 。 这 就 
给 软件 盗版 的 自发 现 提供 了 可 能 ,利用 网 络 息 虫 技术 搜索 网 上 的 软件 ,并 检测 这 些 软件 
中 的 水 印信 息 , 从 而 自发 地 发 现 盗版 行为 。 


4.4 信息 隐藏 与 数字 水 印 的 应 用 与 发 展 


4.4.1 信息 隐藏 技术 的 应 用 与 发 展 方向 
在 信息 安全 领域 中 ,信息 隐藏 与 数字 水 印 技术 的 应 用 可 归结 为 下 列 几 个 方面 。 
1. 数字 知识 的 产权 保护 


知识 产权 保护 是 信息 隐藏 与 数字 水 印 技术 所 力图 解决 的 重要 问题 ,信息 隐藏 技术 的 
绝 大 部 分 研究 成 果 都 集中 于 这 一 领域 , 随 着 网 络 和 数字 技术 的 快速 普及 ,通过 网 络 向 人 
们 提供 的 数字 服务 也 会 越 来 越 多 ,如 数字 图 书馆 数字 图 书 出 版 数字 电视 .数字 新 闻 等 ， 
这 些 服 务 提 供 的 都 是 数字 产品 。 数 字 产 品 具有 易 修 改易 复制 、. 易 窃取 的 特点 ,因此 , 数 
字 知 识 产 权 保护 就 成 为 迫切 需要 解决 的 实际 问题 ,信息 隐藏 技术 应 用 于 版 权 保护 时 ,所 
嵌入 的 签字 信号 通常 被 称 作 ”数字 水 印 ”, 数 字 水 印 技术 可 以 成 为 解决 此 难题 的 一 种 方 
案 。 现 在 越 来 越 多 的 视频 信和 号、 音频 信号 和 数字 图 像 中 被 贴 上 了 不 可 见 的 标签 ,用 以 防 
止 非法 拷贝 和 数据 跟踪 服务 提供 商 在 向 用 户 发 送 产品 的 同时 ,将 双方 的 信息 代码 以 水 印 
的 形式 隐藏 在 作品 中 ,这 种 水 印 从 理论 上 讲 应 该 是 不 被 破坏 的 。 当 发 现 数字 产品 在 非法 
传播 时 ,可 以 通过 提取 出 的 水 印 代码 追查 非法 散播 者 。 其 主要 特点 是 版 权 保护 所 需 嵌 人 
的 数据 量 小 ,对 水 印信 号 的 安全 性 和 和 鲁 棒 性 要 求 很 高 。 


2. 数据 完整 性 鉴定 


数据 完整 性 鉴定 是 指 对 某 一 信号 的 真 伪 或 完整 性 的 判别 ,并 需要 进一步 指出 该 信号 
与 原始 真实 信号 的 差别 ,以 确认 资料 在 网 上 传输 或 存储 过 程 中 是 否 被 算 改 、 破 坏 或 丢失 。 
假定 接收 到 一 个 多 媒体 信号 (如 音频 、 视 频 或 图 像 等 ), 并 初步 判断 它 可 能 是 某 一 原始 真 
实 信号 的 修改 版 本 ,数据 自 改 验证 的 任务 就 是 在 对 原始 信号 的 具体 内 容 不 可 知 的 情况 
下 ,以 最 大 的 可 能 判断 是 否 真实 。 

(1) 要 充分 利用 数据 库 管理 系统 提供 的 数据 完整 性 约束 机 制 和 各 种 输入 数据 的 引用 
完整 性 约束 设计 以 保证 数据 完整 ,准确 地 输入 和 储存 。 

(2) 在 数据 传输 过 程 中 可 视 情况 选用 相应 的 数据 校 验方 式 对 传输 数据 进行 校 验 
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检查 。 
3. 数据 保密 


在 网 络 上 传输 秘密 数据 要 防止 非法 用 户 的 截获 和 使 用 ,这 是 网 络 安全 的 一 个 重要 内 
容 。 随 着 信息 技术 的 发 展 以 及 经 济 的 全 球 化 ,这 一 点 不 仅 涉及 政治 、 军 事 领 域 , 还 将 涉及 
商业 、 金 融 机 密 和 个 人 隐私 。 信 息 隐 藏 技术 为 网 上 交流 的 信息 采取 了 有 效 的 保护 ,比如 
电子 政务 中 敏感 信息 ,电子 商务 中 的 秘密 协议 和 合同 ,网 上 银行 交易 的 重要 数据 ,重要 文 
件 的 数字 签名 以 及 个 人 隐私 等 ,还 可 以 对 一 些 不 愿 为 别人 所 知道 的 内 容 使 用 信息 隐藏 的 
方式 进行 隐藏 储存 ,从 而 使 数据 得 到 保密 ,保证 了 信息 的 安全 性 。 


4. 资料 不 可 抵赖 性 的 确认 


在 网 上 交易 中 ,交易 双方 的 任何 一 方 不 能 抵赖 自己 曾经 做 出 的 行为 ,也 不 能 否认 曾 
经 接收 到 对 方 的 信息 ,这 是 交易 系统 中 的 一 个 重要 环节 。 可 以 在 交易 体系 的 任何 一 方 发 
送 和 接收 信息 时 ,将 各 自 的 特征 标记 形式 使 用 信息 隐藏 技术 加 入 到 传递 的 信息 中 ,这 些 
标记 应 是 不 能 被 去 除 的 ,从 而 达到 确认 其 行为 的 目的 。 

信息 隐藏 技术 是 近年 来 多 媒体 通信 和 多 媒体 信号 处 理 领 域 中 新 兴 的 研究 方向 , 它 为 
信息 安全 提供 了 一 种 新 的 思路 ,为 信息 安全 研究 提供 了 一 个 新 的 方向 。 

目前 国际 上 先进 的 信息 隐藏 技术 已 能 做 到 隐藏 的 信息 可 以 经 受 人 的 感觉 检测 和 仪 
器 的 检测 ,并 能 抵抗 一 些 人 为 的 攻击 。 但 总 的 来 说 ,信息 隐藏 技术 尚 没有 发 展 到 可 实用 
的 阶段 ,使 用 密码 加 密 仍 是 网 络 信息 传输 的 主要 安全 手段 。 虽 然 目 前 对 信息 隐藏 的 研究 
有 了 很 大 的 进展 ,在 信息 安全 中 起 到 了 重要 的 作用 ,但 仍 存在 大 量 的 实际 问题 骂 待 解决 ， 
如 信息 隐藏 的 容量 问题 ,如 何 建立 不 可 感知 性 的 数学 度量 模型 ,信息 隐藏 的 容量 上 界 如 
何 计算 等 ;信息 隐藏 的 对 立 面 一 一 隐藏 分 析 如 何 得 到 同步 发 展 ; 如 何 对 信息 隐藏 进行 分 
析 和 分 类 ;如 何 找到 信息 隐藏 技术 自己 的 理论 依据 ,形成 完善 和 科学 的 理论 体系 等 。 


4.4.2 数字 水 印 技术 的 应 用 和 发 展 方向 


数字 水 印 技术 的 研究 大 约 始 于 1994 年 ,已 有 不 少 著名 大 学 和 研究 机 构 投 入 相当 大 
的 人 力 .物力 和 财力 ,致力 于 该 项 技术 的 研究 ,并 取得 了 一 定 的 成 果 , 包 括 美 国 的 麻 省 理 
T. bi Purdue 大 学 .英国 的 Ceorage Mason 大 学 ,瑞士 洛桑 联邦 工 技 院 .美国 的 NEC 研 
究 所 、 美 国 的 IBM 研究 所 等 。 一 些 公司 已 推出 了 一 些 数字 水 印 软件 产品 等 。 各 研究 机 构 
正 努 力 设计 出 更 高 效 安全 、 更 通用 、 更 强 抗 攻 击 能 力 的 数字 水 印 产 品 。 

我 国 在 该 领域 的 研究 尚未 普及 , 虽 已 引起 数 十 家 大 学 和 研究 机 构 ( 如 北京 邮电 大 学 、 
哈尔滨 工业 大 学 .中科院 自动 化 研究 所 和 国防 科大 等 ) 的 关注 ,但 到 目前 为 止 还 基本 没有 
成 熟 的 技术 或 商业 化 软件 可 供 投 入 市 场 。 随 着 数字 化 产品 在 中 国 的 普及 ,Internet 在 中 
国 的 迅猛 发 展 以 及 电子 商务 的 快速 发 展 ,数字 水 印 技术 将 会 拥有 更 加 广阔 的 应 用 前 景 ， 
这 也 是 国产 化 软件 走向 世界 的 捷径 。 目 前 ,数字 水 印 还 没有 形成 统一 的 国际 标准 。 

近年 来 .数字 水 印 技术 的 研究 和 发 展 都 很 迅猛 ,其 研究 方向 也 呈 多 元 化 ,归纳 起 来 大 
致 有 如 下 几 个 方向 : 
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CD 将 水 印 处 理 技术 与 编码 算法 统一 起 来 。 数 字 产 品 的 发 布 和 使 用 通常 要 经 过 编码 
和 传输 。 传 统 的 水 印 处 理 往往 与 压缩 编码 算法 分 开 。 目 前 许多 科研 机 构 在 研究 如 何在 
编码 的 过 程 中 嵌入 水 印 并 提出 了 相应 的 嵌入 方法 (研究 隐藏 算法 的 同时 当然 也 包含 了 检 
测算 法 )。 这 样 做 的 优点 在 于 使 水 印 对 该 编码 算法 具有 和 鲁 棒 性 ,尽量 减少 无 意 的 水 印 
攻击 。 

(2) 力图 建立 国际 统一 标准 的 水 印 处 理 算法 。 目 前 国际 上 的 水 印 处 理 算 法 尚未 形成 
统一 的 标准 ,形成 标准 已 经 成 为 所 有 水 印 研 究 者 的 共同 目标 。 然 而 ,由 于 形成 国际 标准 
的 算法 要 求 必 须 具 有 优越 性 .通用 性 、 健 壮 性 和 有 效 性 ,并 要 得 到 世界 各 国 的 认同 ,所 以 
形成 标准 是 一 项 艰巨 的 任务 。 其 中 基于 DCT 变换 和 小 波 变换 的 水 印 处 理 技 术 是 各 国 争 
相 研究 的 热点 ,形成 标准 的 可 能 性 最 大 。 

(3) 将 水 印 处 理 技术 商业 化 并 应 用 于 其 他 领域 如 军事 和 国防 领域 ,用 于 传送 秘密 的 
军事 命令 .验证 军事 命令 ,信息 的 真实 可 靠 性 ,并 探索 该 领域 的 新 技术 和 新 理论 ,这 对 于 
国防 现代 化 建设 和 未 来 的 信息 化 、 网 络 化 战争 有 重大 意义 。 


思 考 题 


简 述 信息 隐藏 与 数字 水 印 的 区 别 与 联系 。 

例 举 常见 的 信息 隐藏 技术 。 

简单 描述 数字 水 印 的 组 成 框架 。 

针对 数字 水 印 有 哪些 攻击 ? 分 别 有 何 应 对 策略 ? 
目前 ,可 逆水 印 还 存在 哪些 不 足 ? 

比较 三 种 常见 的 可 逆水 印 的 方法 ,分 析 各 自 的 优 缺 点 。 
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本 章 学 习 目标 

数字 取证 技术 是 当前 数字 内 容 安 全 的 一 个 研究 热点 。 本 章 介 绍 了 数字 取证 的 基本 
原理 与 相关 技术 ,主要 包括 数字 取证 的 技术 分 类 、 数 字 内 容 自 改 取证 、 数 字 内 容 来 源 取 证 
以 及 数字 内 容 隐 秘 分 析 取 证 ,并 介绍 了 一 些 经 典 的 取证 案例 与 取证 方法 。 

通过 本 章 的 学 习 , 应 掌握 以 下 内 容 : 

(1) 数字 取证 的 基本 原理 。 

(2) 数字 取证 技术 的 分 类 。 

(3) 数字 内 容 自 改 取证 技术 。 

(4) 数字 内 容 来 源 取 证 技术 。 

(5) 数字 内 容 隐秘 分 析 取 证 技术 。 

数字 取证 技术 是 信息 安全 领域 近年 来 发 展 起 来 的 一 个 新 的 研究 热点 。 它 是 计算 机 
科学 法 学 以 及 刑法 学 等 学 科 的 交叉 学 科 。 数 字 取 证 技术 的 目的 是 调查 与 数字 技术 相关 
的 电子 商务 诈骗 .侵占 知识 产权 .和 人 侵 计算 机 等 数字 犯罪 ,有 效 确 保 计 算 机 、 移 动手 机 以 
及 通信 网 络 等 数字 设备 中 相关 信息 的 安全 ,并 进而 构建 出 一 个 整体 信息 安全 架构 ,以 防 
止 网 络 安全 等 相关 攻击 ,协助 企业 司法 机 构 收 集 数 字 犯 罪证 据 。 

在 传统 的 主动 取证 技术 中 ,数字 签名 技术 需要 从 原始 数字 内 容 中 提取 数字 签名 或 内 
容 摘要 ,然后 通过 对 比 接收 方 的 数字 签名 与 内 容 摘要 来 验证 传输 过 程 中 数字 内 容 是 否 经 
过 算 改 ,这 种 方法 需要 事先 产生 辅助 信息 。 而 数字 水 印 技术 需要 将 数字 产品 的 版 权 信息 
嵌入 到 可 能 存在 的 元 余 信 息 中 ,以 达到 保护 数字 产品 版 权 与 完整 性 的 目的 ,这 种 技术 要 
求 相 关 设 备 带 有 水 印 嵌 入 功能 ,同时 要 求 被 嵌入 的 水 印 具 有 较 强 的 鲁 棒 性 ,还 需要 权威 
的 三 方 介入 ,这 对 数字 水 印 的 应 用 带 来 了 很 大 的 局 限 性 。 而 本 章 将 要 介绍 的 数字 取证 技 
术 主 要 是 被 动 取证 技术 , 它 通过 对 数字 内 容 的 统计 特性 进行 分 析 来 判断 数 其 内 容 的 真实 
性 、 完 整 性 和 原始 性 。 若 没有 特别 说 明 , 本 章 所 指 的 数字 取证 均 为 数字 内 容 被 动 取 证 
技术 。 

本 章 从 数字 取证 的 基本 概念 入 手 ,首先 介绍 了 数字 取证 技术 的 分 类 , 接 下 来 分 别 从 
内 容 自 改 、 内 容 来 源 及 内 容 隐秘 分 析 三 个 方面 详细 介绍 了 数字 取证 技术 ,通过 本 章 的 学 
习 可 以 对 数字 取证 技术 有 进一步 的 了 解 。 
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5.1 数字 取证 基本 概念 


5.1.1 数字 取证 概念 


随 着 计算 机 及 网 络 技术 的 高 速 发 展 和 广泛 应 用 ,利用 计算 机 进行 犯罪 也 在 日 趋 增 
加 。 要 想 过 制 这 类 犯罪 案件 的 发 生 , 就 需要 能 证 明 犯 罪 的 证 据 ,从 计算 机 中 提取 证 据 成 
为 案件 侦破 的 关键 。 计 算 机 取证 对 于 起 诉 这 类 犯罪 行为 至 关 重 要 。 

计算 机 犯罪 取证 (数字 取证 ) 也 被 称 为 计算 机 法 医学 ,是 指 把 计算 机 看 做 犯罪 现场 ， 
运用 先进 的 辨析 技术 ,对 电脑 犯罪 行为 进行 法 医 式 的 解剖 ,搜寻 确认 罪犯 及 其 犯罪 证 据 ， 
并 据 此 提起 诉讼 。 它 作为 计算 机 领域 和 法 学 领域 的 一 门 交叉 科学 , 正 逐 渐 成 为 人 们 关注 
的 焦点 。 

数字 取证 是 指 为 了 揭示 与 数字 产品 相关 的 犯罪 或 过 失 行 为 ,以 及 由 其 他 原因 导致 的 
使 系统 发 生 故 障 的 现象 ,利用 一 切 科 学 合法 的 方法 和 工具 ,对 以 0/1 二 进 制 表 示 的 数据 
进行 识别 ,保存 ,收集 、 检 查 \ 分 析 和 呈 堂 等 活动 过 程 。 数 字 取 证 是 个 广义 的 范畴 ,从 其 研 
究 范 围 来 讲 , 既 包括 计算 机 取证 又 包括 网 络 取证 ;从 其 内 涵 来 讲 , 是 对 数字 资源 的 提取 、 
存储 、 分 析 和 利用 , 它 与 网 络 取 证 和 计算 机 取证 的 本 质 是 一 致 的 。 

数字 取证 的 对 象 是 电子 证 据 。 电 子 证 据 不 同 于 其 他 证 据 形式 ,是 指 以 电子 的 、 数 字 
的 .电磁 的 光学 的 或 类 似 性 能 的 相关 技术 形式 保存 记录 于 计算 机 、 磁 性 物 .光学 设备 或 
类 似 设备 及 介质 中 或 通过 以 上 设备 和 生成、 发送、 接受 的 能 够 证 明 刑事 案件 情况 的 一 切 数 
据 或 信息 ,属于 高 科技 证 据 。 我 国 4 刑事 诉讼 法 ?规定 证 据 有 7 种 形式 , 即 物证 、 书 证 ;证 
人 证 言 ; 被 害 人 陈述 ;犯罪 嫌疑 人 、 被 告 人 供述 和 辩解 ;鉴定 结论 ; 勘 验 .检查 笔录 ;视听 资 
料 。 在 这 7 种 证 据 中 没有 电子 证 据 这 种 证 据 形 式 。 因 此 ,电子 证 据 需 经 过 法 律 规定 的 收 
集 和 审查 才能 具备 证 据 能 力 和 证 据 性 。 如 何以 可 见 、 可 感知 和 可 移动 的 形式 将 电子 证 据 
固定 下 来 ,从 而 在 技术 上 实现 电子 证 据 的 有 形 性 和 可 视 性 的 转变 是 数字 取证 的 重要 过 
程 。 这 种 新 形式 的 证 据 与 传统 刑事 证 据 相 比 有 许多 不 同 的 特点 ,具体 如 下 : 

CD 数字 化 特性 。 计 算 机 内 的 文档 、 图 形 、 图 像 、 动 画 、 音 频 、 视 频 等 信息 形式 均 是 以 
二 进 制 数 据 格式 存储 、 传 输 。 

(2) 电子 介质 特性 。 电 子 证 据 生 成 后 存储 于 计算 机 硬盘 、 软 盘 、 光 盘 、 磁 带 等 电子 设 
备 及 介质 中 。 

(3) 具有 较 强 的 隐蔽 性 。 计 算 机 证 据 在 计算 机 系统 中 存在 的 范围 很 广 ,使 得 证 据 容 
易 被 隐藏 。 一 切 信息 都 由 编码 来 表示 并 传递 ,使 得 计算 机 证 据 与 特定 主体 之 间 的 关系 按 
照常 规 手 段 难以 确定 。 

(4) 客观 实在 易 变 性 。 计 算 机 数字 信息 的 存储 和 传输 过 程 中 又 容易 被 截取 ,监听 、 剪 
接 、 删 除 ,同时 还 可 能 由 于 计算 机 系统 、 网 络 系统 、 物 理 系统 的 原因 ,造成 其 变化 且 不 留 
痕迹 。 

(5) 取证 的 广 域 性 。 计 算 机 犯罪 实施 可 以 在 计算 机 网 络 中 延伸 到 世界 范围 的 任何 一 
个 角落 发 生 。 网 络 的 便利 性 使 得 计算 机 网 络 犯罪 跨越 省 界 、 国 界 都 是 很 容易 做 到 的 ,这 
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给 数字 取证 工作 带 来 很 大 的 挑战 。 

数字 证 据 与 传统 的 证 据 相 比较 ,有 以 下 突出 的 特点 : 

CD 数字 证 据 同 时 具有 较 高 的 精密 性 和 脆弱 性 。 一 方面 ,数字 证 据 以 技术 为 依托 ,很 
少 受 主观 因素 的 影响 ,能 够 避免 其 他 证 据 的 一 些 丙 端 ,如 证 言 的 误 传 .书证 的 误 记 等 ; 另 
一 方面 ,由 于 数字 信息 是 用 二 进 制 数据 表示 的 ,以 数字 信号 的 方式 存在 ,而 数字 信号 是 非 
连续 性 的 ,故意 或 因为 其 他 差错 对 数字 证 据 进行 的 变更 、 删 除 、 删 节 、 剪 接 、 截 获 和 监听 
等 ,从 技术 上 讲 很 难 查 清 。 

(2) 数字 证 据 具 有 较 强 的 隐蔽 性 。 数 字 证 据 在 计算 机 等 数字 系统 中 可 存在 的 范围 很 
广 ,使 得 证 据 容易 被 隐藏 。 另 外 ,由 于 数字 证 据 在 存储 、 处 理 的 过 程 中 ,其 信息 的 表示 形 
式 为 二 进 制 编码 ,无 法 直接 阅读 。 一 切 信息 都 由 编码 来 表示 并 传递 ,使 得 数字 证 据 与 特 
定 主体 之 间 的 关系 按照 常规 手段 难以 确定 。 

(3) 数字 证 据 具 有 多 媒体 性 。 数 字 证 据 的 表现 形式 是 多 样 的 ,尤其 是 多 媒体 技术 的 
出 现 , 更 使 数字 证 据 综 合 了 文本 、 图 形 、 图 像 、 动 画 、 音 频 及 视频 等 多 种 媒体 信息 ,这 种 以 
多 媒体 形式 存在 的 数字 证 据 几 乎 涵盖 了 所 有 的 传统 证 据 类 型 。 

(4) 数字 证 据 还 具有 收集 迅速 .易于 保存 .占用 空间 少 、 容 量 大 、 传 送 和 运输 方便 、 可 
以 反复 重 现 、 便 于 操作 等 特点 。 数 字 证 据 的 这 些 特点 表明 数字 取证 面临 不 少 难题 ,有 完 
全 不 同 于 传统 取证 的 问题 需要 研究 。 数 字 取 证 与 国家 安全 司法 安全 以 及 国防 安全 密切 
相关 ,并 已 成 为 信息 安全 领域 的 研究 热点 之 一 。 由 于 其 本 质 和 信息 安全 学 科 之 间 存 在 差 
别 , 国 外 学 者 已 提出 建立 数字 取证 新 学 科 , 并 研究 了 教育 与 研究 领域 的 人 才 培 养 体系 与 
知识 结构 。 据 了 解 ,国内 有 些 学 者 也 在 关注 数字 取证 作为 学 科 发 展 的 新 领域 。 


5.1.2 取证 过 程 模型 


美国 国家 司法 研究 所 (U. S... National Institute of Justice, NID 2001 年 公布 了 关于 数 
字 犯 罪 现 场 调查 的 过 程 模型 ,其 目的 在 于 提供 有 关 数 字 犯 罪 现场 调查 指导 方针 ,以 用 于 
指导 调查 。 该 模型 主要 针对 于 调查 人 员 在 首次 调查 数字 犯罪 过 程 中 当 遇 到 不 同类 型 的 
数字 证 据 时 ,给 予 相应 的 处 理 程序 ,从 而 可 以 更 加 安全 地 处 理 相 关 的 数字 证 据 , 其 重点 在 
于 数字 调查 中 的 收集 过 程 。 该 模型 如 图 5-1 所 示 。 


准备 和 收集 He 检查 和 保护 一 -| 分 析 报告 展示 


5-1 NJ 数字 犯罪 现场 调查 数据 模型 


该 模型 包括 如 下 要 点 。 
1. 电子 证 据 的 确定 和 收集 


要 保存 计算 机 系统 的 状态 ,避免 无 意识 破坏 现场 ,同时 不 给 犯罪 者 破坏 证 据 提 供 机 
会 ,以 供 日 后 分 析 。 包 括 封 存 目 标 计算 机 系统 并 避免 发 生 任何 的 数据 破坏 或 病毒 感染 ， 
绘制 计算 机 犯罪 现场 图 、 网 络 拓扑 图 等 ,在 移动 或 拆 印 任何 设备 之 前 都 要 拍照 存档 ,为 今 
后 模拟 和 还 原 犯 罪 现 场 提供 直接 依据 。 在 这 一 阶段 使 用 的 工具 软件 由 现场 自动 绘图 软 
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件 、 检 测 和 自动 绘制 网 络 拓扑 图 软件 等 组 成 。 
获取 证 据 从 本 质 上 说 就 是 从 众多 的 未 知 和 不 确定 性 中 找到 确定 性 的 东西 。 这 一 步 
使 用 的 工具 一 般 是 具有 磁盘 镜像 ,数据 恢复 解密、 网 络 数据 捕获 等 功能 的 取证 工具 。 


2. 电子 证 据 的 保护 


这 一 阶段 将 使 用 原始 数据 的 精确 副本 ,应 保证 能 显示 存在 于 镜像 中 的 所 有 数据 ,而 
且 证 据 必 须 是 安全 的 ,有 非常 严格 的 访问 控制 。 为 此 必须 注意 以 下 几 点 : 

(1) 通过 计算 副本 和 原始 证 据 的 Hash 值 来 保证 取证 的 完整 性 。 

(2) 通过 写 保护 和 病毒 审查 文档 来 保证 数据 没有 被 添加 、 删 除 或 修改 。 

(3) 使 用 的 硬件 和 软件 工具 都 必须 满足 工业 上 的 质量 和 可 靠 性 标准 。 

(4) 取证 过 程 必须 可 以 复 验 。 

(5) 数据 写 人 的 介质 在 分 析 过 程 中 应 当 写 保 护 , 以 防止 被 破坏 。 

(6) 分 析 检 查 阶段 的 证 据 , 以 确定 “重要 性 和 证 据 力 ”。 

(7) 在 每 个 案件 之 后 ,创建 检查 日 志 记 录 。 


3. 电子 证 据 的 分 析 


具体 包括 文件 属性 分 析 技术 文件 数字 摘要 分 析 技术 .日 志 分 析 技 术 、 密 码 破 译 技术 
等 。 分 析 阶 段 首先 要 确定 证 据 的 类 型 ,主要 可 分 为 三 种 : 

(1) 使 人 负 罪 的 证 据 , 支 持 已 知 的 推测 。 

(2) 辨 明 无 罪 的 证 据 , 同 已 知 的 推测 相 了 矛盾 。 

(3) 算 改 证 据 , 以 证 明 计算 机 系统 已 被 算 改 而 无 法 用 来 作证 。 


4. 报告 展示 阶段 


给 出 调查 所 得 结论 及 相应 的 证 据 , 供 法 庭 作为 公诉 证 据 。 还 要 解释 是 如 何 处 理 和 分 
析 证 据 的 ,以 便 说 明 监管 链 和 方法 的 彻底 性 。 

该 模型 主要 目标 是 收集 阶段 ,因为 检查 和 分 析 阶 段 仅 仅 给 出 了 可 能 含有 某 一 类 型 犯 
罪 的 证 据 的 数据 类 型 ,而 没有 详细 列 出 其 他 的 细节 。 此 外 ,检查 和 分 析 阶 段 对 应 的 需求 
区 别 并 不 明显 。 因 为 在 检查 阶段 ,使 用 数据 约 简 技术 只 是 后 续 分 析 阶 段 中 一 种 比较 普通 
的 技术 ,换言之 ,在 分 析 阶 段 , 可 以 执行 数据 约 简 技 术 来 识别 重要 的 证 据 。 因 此 在 模型 中 
同时 包含 这 两 个 处 理 过 程 是 有 争议 的 。 之 外 ,如果 是 这 种 情况 的 话 , 那 么 这 两 个 阶段 可 
以 合并 成 一 个 含有 分 析 技 术 的 阶段 。 

随 着 数字 取证 技术 的 发 展 , 人 们 逐渐 关注 数字 取证 中 更 为 本 质 的 内 容 ,出 现 了 抽象 
的 取证 模型 ,如 数字 取证 研究 工作 组 (Digital Forensics Research Workshop,DFRWS) 的 
取证 框架 以 及 提出 的 抽象 过 程 模型 等 。 之 后 ,为 了 进一步 完善 取证 模型 ,产生 了 将 物理 
犯罪 调查 与 数字 取证 调查 进行 结合 的 抽象 模型 .针对 于 安全 事件 的 取证 调查 模型 .针对 
于 调查 目标 的 取证 模型 以 及 端 到 端 取 证 模型 等 。 这 些 工作 有 力 地 推动 了 数字 取证 技术 
的 发 展 ,对 取证 标准 化 具有 比较 大 的 意义 ,为 相关 的 立法 工作 也 提供 了 支持 。 
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5.1.3 数字 取证 常用 工具 


计算 机 取证 技术 也 日 益 成 熟 ,各 种 计算 机 取证 软件 .计算 机 取证 工具 层出不穷 ,仅仅 针 
对 逻辑 层 的 就 有 Guidance 的 Encase, AccessData 的 FTK, FINALData 的 FINALForensics 
等 诸多 软件 ,针对 物理 层 的 计算 机 取证 工具 也 不 胜 枚 举 , 但 是 要 达到 更 有 效 打击 计算 机 
犯罪 的 目的 ,法 证 界 迫 切 需要 多 元 化 的 计算 机 取证 综合 解决 方案 。 

计算 机 取证 的 相关 工具 包括 一 般 工 具 软 件 , 如 用 于 检测 分 区 的 工具 软件 .杀毒 软件 、 
各 种 压缩 工具 软件 等 。 还 有 取证 专用 工具 软件 ,如 文件 浏览 器 .图 片 检 查 工 具 、` 反 删除 工 
R CD-ROM 工具 磁盘 擦 除 工具 等 。 

Encase 自称 是 唯一 一 个 完全 集成 的 基于 Windows 界面 的 取证 应 用 程序 ,是 专业 的 
计算 机 取证 工具 ,包括 Encase 取证 版 解决 方案 和 Encase 企业 版 解决 方案 。 

Encase 取证 版 解决 方案 是 国际 领先 的 受 法 院 认可 的 计算 机 调查 取证 的 工具 。 具 有 
以 下 主要 特性 : 

CD. 支持 并 能 管理 易 变 的 时 区 。 

(2) 能 分 析 UNIX 和 Linux 的 系统 文件 。 

(3) 能 查看 并 搜索 NTFS 压缩 文件 ,能 检测 NTFS 文件 系统 中 的 附加 分 区 中 的 


(4) 允许 查看 NTFS 文件 /文件 夹 的 所 有 者 和 访问 权 。 

(5) 允许 用 户 限制 其 可 查看 的 数据 ,并 能 保护 特权 数据 。 

(6) 具有 良好 的 EnScript 程序 界面 ,编辑 和 调试 代码 操作 更 方便 。 

(7) 可 以 隐藏 用 户 定义 的 扇 区 或 提前 读 取 一 定数 量 的 扇 区 ,从 而 提高 导航 函数 的 
速度 。 

(8) 具有 多 个 关键 词 搜索 算法 ,能 够 动态 加 快 搜索 速度 。 

(9) 支持 RAID, 了 解 动态 磁盘 分 区 结构 并 能 处 理 所 有 可 能 的 配置 。 

Encase 企业 版 解决 方案 由 SAFE, Examiner 和 Servlet 三 部 分 组 成 ,是 世界 上 第 一 个 
可 有 效 执行 远程 企业 紧急 事件 响应 (response) , 8i TF Caudi 和 发 现 (discovery) 任 务 的 解 
决 方案 。 


5.2 数字 取证 分 类 


5.2.1 数字 取证 技术 的 分 类 


从 计算 机 取证 技术 的 发 展 来 看 ,先后 有 数字 取证 (digital forensics)、 电 子 取证 
Celectric forensics) , 计算机 取证 (computer forensic)、 网 络 取证 (networks forensics) 等 
术语 。 


1. 电子 取证 
随 着 计算 机 犯罪 个 案 数字 不 断 上 升 和 犯罪 手段 的 数字 化 ,搜集 电子 证 据 的 工作 成 为 
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提供 重要 线索 及 破案 的 关键 。 恢 复 已 被 破坏 的 计算 机 数据 及 提供 相关 的 电子 资料 证 据 
就 是 电子 取证 。 

电子 取证 主要 研究 除 计算 机 和 网 络 以 外 的 电子 产品 中 的 数字 证 据 获 取 、 分 析 和 展 
示 , 如 数码 相机 复印机、 传真 机 甚至 有 记忆 存储 功能 的 家 电 产 品 等 。 


2. 计算 机 取证 


计算 机 取证 的 主要 方法 有 对 文件 的 复制 .被 删除 文件 的 恢复 、 缓 冲 区 内 容 获 取 、 系 统 
日 志 分 析 等 ,是 一 种 被 动 式 的 事后 措施 ,不 特定 于 网 络 环境 。 


3. 网 络 取证 
网 络 流 的 相关 性 、 数 据 的 完整 性 和 包 捕获 的 速率 是 网 络 取证 分 析 首要 考虑 的 事情 。 
相关 性 是 指 在 某 些 环境 下 ,应 当 在 捕获 网 络 流 时 FE 
应 用 过 滤器 去 掉 不 相关 的 数据 。 数 据 的 完整 性 要 y 
求 网 络 取证 工具 应 当 一 直 监控 网 络 流 。 PTA 必 集 证 所 
网 络 取证 对 数据 的 保护 和 一 般 的 数字 取证 过 Al AENT 
程 要 求 相同 ,网 络 取证 分 析 的 相关 技术 包括 人 工 : l 
智能 .机 器 学 习 . 数 据 挖掘 、IDS 技术 、 蜜 阱 技术 、 pea EMEN 
SVM 和 专家 系统 等 。 分 析 进行 中 
根据 网 络 攻击 一 般 过 程 ,网 络 取证 模型 如 | 展示 证 据 分 析 证 据 
图 5-2 所 示 。 调查 完成 
下 面 简单 介绍 几 种 常见 的 网 络 取证 技术 。 "m 
1) IDS 取证 技术 


图 5-2 网 络 取证 模型 
将 计算 机 取证 结合 到 入 侵 检测 等 网 络 安全 工 


具 和 网 络 体系 结构 中 进行 动态 取证 ,可 使 整个 取证 过 程 更 加 系统 并 具有 智能 性 和 实时 
性 ,并 且 还 能 迅速 做 出 响应 。IDS 取证 的 具体 步骤 如 下 : 

D 寻找 嗅 探 器 (如 sniffer). 

© 寻找 远程 控制 程序 。 

@ 寻找 黑客 可 利用 的 文件 共享 或 通信 程序 。 

(D 寻找 特权 程序 。 

© 寻找 文件 系统 的 变动 。 

© 寻找 未 授权 的 服务 。 

© 寻找 口令 文件 的 变动 和 新 用 户 。 

(& 核对 系统 和 网 络 配 置 ,特别 注意 过 滤 规 则 。 

© 寻找 异常 文件 ,这 将 依赖 于 系统 磁盘 容量 的 大 小 。 

@ 查看 所 有 主机 ,特别 是 服务 器 。 

D 观察 攻击 者 ,捕获 攻击 者 , 找 出 证 据 。 

O 如 果 捕 获 成 功 则 准备 起 诉 , 如 立刻 联系 律师 等 。 

Q3 做 完全 的 系统 备份 ,将 系统 备份 转移 到 单 用 户 模式 下 ,在 单 用 户 模式 下 制作 和 验 


110 Qi asstumssa 


证 备份 。 

2) 蜜 阱 取证 技术 

蜜 阱 是 包括 蜜 钠 和 蜜 网 等 以 诱骗 技术 为 核心 的 网 络 安全 技术 。 它 是 一 种 经 过 精心 
设计 的 诱骗 系统 , 当 黑 客 进行 攻击 时 , 它 能 够 监视 攻击 者 的 行径 .策略 工具 和 目标 ,从 而 
自动 地 收集 相关 的 电子 证 据 , 实 现实 时 的 网 络 取 证 。 

利用 蜜 阱 进行 取证 分 析 时 ,一 般 应 遵循 如 下 原则 和 步骤 : 

A) 确定 攻击 的 方法 .日 期 和 时 间 ( 假 设 IDS 的 时 钟 和 NTP( 网 络 时 间 协 议 ) 参 考 时 
间 源 同步 ) 。 

(2) 尽 可 能 多 地 确定 有 关 入 侵 者 的 信息 。 

(3) 列 出 所 有 入 侵 者 添加 或 修改 的 文件 ,并 对 这 些 程序 (包括 未 编译 或 未 重组 部 分 ， 
因为 这 些 部 分 可 能 对 确定 函数 在 此 事件 中 的 作用 和 角色 有 帮助 ) 进 行 分 析 。 

(4) 建立 一 条 事件 时 间 线 ,对 系统 行为 进行 详细 分 析 ,注意 确认 证 据 的 来 源 。 

(5) 给 出 适合 管理 层面 或 新 闻 媒 体 需要 的 报告 。 

(6) 对 事故 进行 费用 估计 。 

3) 模糊 专家 系统 取证 技术 

Jun-Sun Kim 等 人 开发 了 一 个 基于 模糊 专家 系统 的 网 络 取 证 系统 , 它 由 六 个 组 件 
组 成 。 

(1) 网 络 流 分 析 器 。 完 成 网 络 流 的 捕获 和 分 析 , 为 了 保证 数据 的 完整 性 , 它 要 求 捕获 
所 有 的 网 络 流 。 分 析 器 应 用 规则 对 捕获 到 的 网 络 流 进行 重组 ,这 种 分 类 数据 包 的 规则 是 
协议 相同 的 和 时 间 连 续 的 。 

COD 知识 库 。 存 储 模 糊 推理 引擎 所 使 用 的 模糊 规则 ,其 形式 为 : 


如 果 
Xi = Ais X) = Ass X = A, 
则 
Y-Z 
(3) 模糊 化 。 确 定 每 个 语义 变量 的 模糊 集 所 定义 的 隶属 函数 和 每 个 模糊 集中 输入 值 
的 隶属 度 。 


(4) 模糊 推理 引擎 。 当 所 有 的 输入 值 被 模糊 化 为 各 自 的 语义 变量 后 ,模糊 推理 引擎 
访问 模糊 规则 库 ,进行 模糊 运算 ,导出 各 语义 变量 的 值 。 

(5) 反 模糊 化 。 运 用 “最 小 -最 大 ”运算 产生 输出 值 ,作为 取证 分 析 器 的 输入 。 

(6) 取证 分 析 器 。 判 断 捕获 的 数据 包 是 否 存在 攻击 , 它 的 主要 功能 是 收集 数据 、 分 析 
相关 信息 ,并 且 生 成 数字 证 据 。 

4) SVM 取证 技术 

SVM(Support Vector Machine) 取 证 技术 是 为 了 发 现 信息 行为 的 关键 特征 ,去除 无 
意义 的 噪声 ,有 助 于 减少 信息 存储 量 ,提高 计算 速度 等 。 同 时 ,网 络 取证 应 该 是 主动 的 防 
御 , 对 未 知 的 网 络 攻击 具有 识别 和 取证 能 力 。SVM 特征 选择 的 基本 思想 是 : 

A) 选择 训练 集 和 测试 集 ,对 每 个 特征 重复 以 下 步骤 。 

(2) 从 训练 集 和 测试 集中 删除 该 特征 。 
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(3) 使 用 结果 数据 集训 练 分 类 器 。 

CD 根据 既定 的 性 能 准则 ,使 用 测试 集 分 析 分 类 器 的 性 能 。 

C5) 根据 规则 标记 该 特征 的 重要 性 等 级 。 

5) 恶意 代码 技术 

恶意 代码 指 能 够 长 期 潜伏 、 秘 密 窃 取 敏 感 信息 的 有 害 代 码 程 序 , 应 用 同样 的 原理 ,可 
以 设计 用 来 进行 取证 。 


5.2.2 证 据 取 证 分 析 技 术 分 类 


数字 取证 技术 是 指 在 取证 调查 过 程 中 ,在 相关 理论 指导 下 ,使 用 合法 、 合 理 、 规 范 的 
技术 或 手段 ,保证 针对 计算 机 等 数字 设备 取证 的 正确 进行 ,同时 产生 真实 ` 有 效 的 结论 。 
然而 ,目前 的 取证 调查 技术 多 数 是 为 解决 数字 取证 调查 中 的 实际 问题 而 发 展 起 来 的 技 
术 , 没 有 进行 充分 的 验证 ,缺乏 相应 的 理论 基础 ,从 而 在 确定 技术 标准 方面 存在 差异 。 取 
证 分 析 技术 可 以 分 为 以 下 三 类 。 


1. 基于 取证 过 程 模型 的 分 析 技 术 


基于 取证 过 程 模型 的 分 析 技术 的 基本 思想 是 根据 DFRWS 给 出 的 取证 过 程 模型 进 
行 划 分 的 。 按 照 该 方法 ,取证 分 析 技 术 可 以 分 为 六 类 : 识别 类 ,保存 类 收集 类 、 检 查 类 、 
分 析 类 以 及 出 示 类 。 这 种 技术 分 类 的 初衷 是 从 数字 取证 调查 过 程 的 角度 来 进行 分 类 。 
这 种 分 类 的 不 足 在 于 : 由 于 缺乏 相关 理论 指导 ,所 以 不 能 涵盖 所 有 的 取证 分 析 技术 种 类 ， 
比如 文件 系统 取证 分 析 技 术 是 数字 调查 的 重要 分 析 技 术 , 它 包含 NTFS 文件 系统 取证 分 
析 、FAT 系列 文件 系统 取证 分 析 以 及 移动 设备 文件 系统 (Symbian、Android 等 文件 系统 ) 
取证 分 析 等 ,但 是 在 这 个 分 类 体系 中 却 没 有 说 明 ; 还 有 有 害 代 码 取 证 检测 技术 等 。 


2. 基于 数字 设备 运行 历史 模型 的 取证 分 析 技 术 


基于 数字 设备 运行 历史 模型 的 取证 分 析 技 术 最 早 由 Brain Carrier 提出 ,他 从 数字 设 
备 的 运行 历史 角度 来 对 数字 取证 分 析 技 术 进 行 分 类 。 其 主要 思想 是 : 计算 机 等 数字 设备 
在 运行 中 包含 一 个 历史 过 程 , 该 过 程 中 存在 事件 和 状态 的 序列 。 因 此 在 数字 取证 过 程 ， 
将 根据 事件 和 状态 的 序列 集合 进行 分 析 。 按 照 数 字 设 备 运行 历史 模型 ,可 以 将 数字 取证 
分 析 技 术 分 为 七 大 类 ,并 将 其 进一步 分 为 31 类 分 析 技术 。 这 七 大 类 分 析 技 术 是 : 通用 调 
查 过 程 、 历 史 周 期 、 原 子 存储 系统 配置 \ 原 子 事件 系统 配置 .原子 状态 和 事件 定义 、 复 杂 存 
储 系统 配置 以 及 复杂 事件 系统 配置 。 


3. 基于 存储 介质 的 取证 分 析 方 法 


这 里 的 存储 介质 主要 包括 硬盘 、 光 盘 、 软 盘 、U 盘 、 内 存 以 及 其 他 形式 的 存储 介质 。 
该 方法 围绕 存储 介质 中 证 据 的 获取 、 保 护 、 传 输 以 及 分 析 等 进行 取证 调查 。 按 照 介质 中 
数据 的 生命 周期 ,该 方法 可 以 分 为 两 类 : 基于 永久 性 存储 介质 的 取证 分 析 和 基于 易 失 性 
内 存 的 取证 分 析 方 法 ,前 者 的 典型 代表 是 磁盘 取证 ,后 者 是 内 存 取证 等 ,其 具体 分 析 过 程 
依赖 于 存储 介质 中 的 文件 系统 结构 、 原 理 以 及 内 存 中 的 进程 结构 等 。 
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以 上 证 据 取 证 分 析 技术 分 类 之 间 有 联系 \ 有 交叉 ,同时 也 存在 互补 关系 , 且 任 何 一 类 
技术 都 具有 相对 性 。 此 外 ,从 取证 分 析 技 术 发 展 及 其 应 用 角度 看 ,新 的 分 析 技 术 也 在 不 
断 出 现 , 如 文件 雕刻 取证 技术 研究 已 经 成 为 下 一 代 取 证 研究 的 重点 , 且 目 前 已 经 获得 了 
初步 研究 成 果 , 如 文档 碎片 分 类 、 重 组 等 研究 。 该 技术 同 现 有 的 取证 技术 结合 可 以 更 加 
有 效 解 决 数字 取证 调查 问题 。 


5.2.3 取证 技术 产品 .标准 和 规范 


法 律 实施 部 门人 迫切 需要 保证 数字 取证 工具 的 可 靠 性 , 即 要求 取 证 工具 能 稳定 地 产生 
准确 和 客观 的 测试 结果 。 然 而 ,目前 的 数字 取证 领域 中 有 大 约 150 个 取证 工具 ,其 中 很 
少 是 根据 取证 标准 和 规范 进行 研制 的 ,甚至 连 比 较 有 名 的 专业 取证 软件 产品 ,如 NTI 
(New Technology Inc) 开 发 的 取证 产品 ENCASE 等 是 根据 取证 实践 经 验 进 行 研制 的 。 
许多 开源 的 取证 软件 产品 ,如 dd, TCT, The Sleuth Kit 等 产品 ,也 是 如 此 。 

为 了 获取 更 加 具有 法 律 效力 的 取证 结果 ,美国 国家 标准 与 技术 研究 院 (National 
Institute of Standards and Technology . NIST) 指 定 了 计算 机 取证 工具 测试 计划 (Computer 
Forensic Tool Testing,CFTT), 其 目标 是 通过 开发 通用 的 工具 规范 ,测试 过 程 \ 测 试 标 
准 、 测 试 硬件 和 测试 软件 ,以 建立 用 于 测试 计算 机 取证 软件 的 方法 。 该 测试 方法 是 基于 
一 致 性 测试 和 质量 测试 的 国际 方法 ,符合 ISO/IEC 17025 :1999( 能 力 测试 和 校准 实验 室 ) 
的 一 般 要 求 。 

目前 ,该 计划 组 已 经 完成 了 硬盘 写 保 护 软件 测试 标准 的 制定 ,正在 制定 磁盘 映像 软 
件 的 测试 标准 ,进一步 将 制定 被 删除 文件 恢复 软件 的 测试 标准 。 显 然 ,CFTT 为 数字 取 
证 标准 化 的 探讨 和 实践 提供 了 一 个 良好 的 开端 ,有 效 地 促进 了 取证 产品 的 行业 标准 和 规 
范 的 制定 工作 。 


5.3 ”数字 内 容 算 改 取证 


5.3.1 数字 内 容 自 改 手段 


针对 数字 内 容 复 改 ,我 们 将 分 别 从 数字 图 像 .数字 音频 和 数字 视频 等 方面 对 其 算 改 
手段 进行 介绍 。 


1. 数字 图 像 的 篡改 手段 


CD 图 像 合成 : 图 像 合 成 (composition) 是 将 对 象 从 图 像 背 景 中 分 离 出 来 ,添加 到 另 
一 个 图 像 背景 中 重新 组 合 , 以 构成 一 幅 新 的 画面 , 它 包 括 复制 -粘贴 (copy-paste) 与 图 像 拼 
接 。 图 像 合成 可 以 用 来 隐藏 原始 图 像 中 的 重要 目标 。 图 像 合成 自 改 是 数字 图 像 真实 性 
算 改 最 常见 的 方法 。 在 现实 应 用 中 ,由 于 图 像 合 成 自 改 中 所 应 用 的 两 幅 和 多 幅 图 往往 在 
分 辨 率 、 合 成 物体 的 比例 大 小 、 位 置 等 的 不 同 ,图像 合成 往往 需要 和 一 些 其 他 的 图 像 处 理 
手段 ,如 图 像 缩 放 、 旋 转 、 润 饰 等 相 结合 起 来 以 达到 更 好 的 自 改 效果 。 数 字 图 像 复 制 -粘贴 
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算 改 是 指 把 图 像 中 某 区 域 的 图 像 内 容 复制 粘贴 到 同 幅 图 像 或 异 幅 图 像 的 男 一 区 域 ,达到 
与 目标 对 象 同时 在 场 或 隐藏 某 目标 对 象 的 目的 ,如 图 5-3 所 示 。 图 像 拼 接 是 指 对 一 幅 或 
多 幅 图 像 进行 裁剪 ,将 目标 对 象 拼接 到 一 块 , 然 后 对 其 进行 模糊 、 缩 放 、 旋 转 等 后 处 理 , 使 
得 自 改 痕迹 不 易 被 人 察觉 ,从 而 形成 原本 相互 独立 的 两 个 或 多 个 场景 同时 在 场 的 拼接 图 
像 , 如 图 5-4 所 示 。 


(a) 背景 空间 (b) 动画 人 物 (c) 背景 空间 与 动画 人 物 的 合成 
图 5-3 图 像 间 的 复制 -粘贴 


OHRI = (OH 


[17 SEE SEU ARER 
图 5-4 图 像 拼接 


(2) 图 像 增强 : 图 像 增强 (enhancement) 是 指 为 了 改善 图 像 的 视觉 效果 ,对 图 像 特定 
区 域 的 颜色 、 灰 度 、 亮 度 或 对 比 度 等 属性 进行 的 适当 调整 ,这 种 操作 能 够 增强 图 像 的 整体 
或 局 部 特性 ,使 原本 不 清晰 的 图 像 变 得 清晰 ,或 突出 感 兴趣 区 域 ,抑制 不 感 兴趣 区 域 ,从 
而 达到 加 强 图 像 识 别 效果 的 目的 。 

(3) 图 像 润 饰 : 图 像 润 饰 (retouch) 是 指针 对 图 像 的 一 种 修补 操作 , 它 的 目的 通常 是 
为 了 消除 某 种 痕迹 ,达到 美化 图 像 的 效果 。 如 在 照相 馆 中 ,摄影 师 会 通过 润 饰 操作 消除 
脸 上 的 皱纹 和 黑 斑 。 此 外 , 润 饰 还 经 常用 于 图 像 自 改 后 的 处 理 , 如 对 复制 -粘贴 后 的 图 像 
采用 模糊 润 饰 来 消除 拼接 的 痕迹 。 

(4) 图 像 修复 : 图 像 修复 是 指 从 图 像 原 有 信息 的 角度 出 发 ,对 图 像 中 的 信息 丢失 区 
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域 进行 修复 ,使 观察 者 无 法 识别 出 信息 丢失 区 域 的 真 伪 。 基 于 样本 纹理 合成 的 修复 技术 
是 图 像 修 复 的 典型 方法 ,该 技术 可 以 用 来 无 痕 消 除 图 像 中 的 大 目标 。 

CO 图 像 变 形 : 图 像 变形 (morphing) 是 一 种 把 一 幅 图 像 逐 渐变 为 另 一 幅 图 像 的 技 
术 。 采 用 的 方法 一 般 是 分 别 找 出 原 图 像 和 目标 图 像 上 对 应 的 特征 点 ,然后 以 不 同 的 权重 
又 加 两 幅 图 像 , 这 样 得 到 的 图 像 就 兼 有 两 幅 图 像 的 特征 ,此 类 操作 常用 于 动画 设计 和 计 
算 机 生成 图 像 的 制作 中 ,如 图 5-5 所 示 。 


图 5-5 图 像 变形 


(6) 计算 机 生成 : 计算 机 生成 图 像 (Computer Graphics,CG) 是 由 计算 机 软件 (如 
3Ds Max, Maya 等 ) 生 成 , 它 包 括 Photorealistic CG (PRCG) 和 No-Photorealistic CG 
(NPRCG) 两 类 。 对 于 PRCG 而 言 ,从 视觉 上 来 看 与 真实 场景 图 像 已 很 难 从 肉眼 上 区 别 
开 来 。 计 算 机 生成 图 像 是 指 利用 计算 机 和 图 形 处 理 软件 生成 现实 中 根本 不 存在 的 场景 
图 像 ,如 图 5-6 所 示 。 计 算 机 生成 图 形 时 ,首先 需要 根据 期 望 值 模 拟 出 一 个 三 维 的 多 边 模 
型 ,然后 对 这 个 模型 进行 纹理 和 颜色 修饰 ,修饰 完成 后 将 该 模型 送 到 模拟 光源 下 的 虚拟 
照相 机 前 成 像 即 可 。 计 算 机 生成 的 图 像 在 平滑 度 、 直 方 图 、 色 彩 和 纹理 复杂 度 等 方面 与 
自然 场景 拍摄 的 图 像 会 有 很 大 的 区 别 。 


图 5-6 计算 机 生成 图 像 


(7) JPEG 重 压缩 : JPEG 重 压缩 是 指 将 JPEG 格式 的 原始 图 像 解压 到 空域 中 进行 图 
像 合成 算 改 后 再 次 将 图 像 保 存 为 JPEG 格式 的 过 程 ,在 这 个 过 程 中 图 像 会 经 历 一 个 不 可 
KWE JPEG 有 损 压 缩 过 程 ,同时 也 会 在 JPEG 重 压缩 图 像 中 引入 单 次 JPEG 压缩 所 
没有 的 特征 。 

(8) 二 次 获取 : 二 次 获取 图 像 是 指 利用 数码 相机 或 摄影 机 等 设备 将 自然 场景 图 像 拍 
摄 生成 一 次 图 像 后 ,又 由 照片 的 照片 .照片 扫描 等 形式 生成 的 二 次 图 像 。 

图 像 自 改 技术 各 式 各 样 , 但 是 在 上 述 几 种 常见 的 图 像 自 改 手段 中 ,伪造 者 用 得 更 多 
的 主要 是 复制 -粘贴 合成) 操作、 模糊 润 饰 操作 和 JPEG 重 压缩 操作 。 
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2. 数字 音频 的 篡改 手段 


(1) 数字 音频 片断 的 删除 : 音频 文件 在 编辑 软件 中 的 编辑 窗口 显示 的 是 连续 的 波 
形 , 从 波形 上 就 可 以 确定 相关 语音 片段 的 起 始 和 终止 的 位 置 ,在 保证 请 义 的 连续 性 一 致 
下 ,可 以 将 其 中 一 些 语音 片断 删除 ,剩余 部 分 会 自动 连接 在 一 起 ,导致 整个 数字 音频 的 语 
义 发 生变 化 或 者 掩盖 关键 语义 。 

(2) 数字 音频 片段 的 剪接 : 从 保证 语义 的 连续 性 出 发 ,可 以 很 简单 地 从 各 个 素材 中 
把 语义 片断 剪辑 出 来 ,然后 再 拼接 在 一 起 ,形成 一 段 新 的 语音 ,达到 创造 新 语义 的 效果 。 

(3) 数字 音频 片段 的 插入 : 从 保证 语义 的 连续 性 出 发 ,可 以 在 音频 片段 的 空隙 处 搬 
入 剪辑 片段 以 曲解 破坏 原 有 语义 形成 一 段 新 的 语音 。 

CD 数字 音频 片段 的 释 加 : 在 音频 编辑 软件 中 可 以 把 几 条 声 轨 的 内 容 混合 在 一 起 ， 
意味 着 在 某 些 场合 能 达到 掩盖 真 声 的 效果 或 者 为 并 不 同时 发 生 的 场景 添加 参照 物 以 伪 
造 现场 。 

(5) 修饰 局 部 的 音频 片段 : 针对 关键 的 语音 片段 ,可 以 做 到 添加 噪声 ,使 得 原先 的 声 
音 听 上 去 变 得 模糊 ;或 者 做 一 些 变频 处 理 , 使 得 说 话 者 的 声音 听 上 去 像 另 外 一 个 人 的 声 
音 。 这 些 算 改 的 技术 手段 就 比较 高 级 ,需要 有 对 软件 使 用 的 经 验 或 者 要 求 需要 有 专业 人 
士 才 拥有 的 技术 手段 。 


3. 数字 视频 的 篡改 手段 


一 个 标准 的 视频 算 改 过 程 一 般 都 要 经 过 以 下 三 个 操作 。 

(1) 帧 复制 或 插入 、 删 除 操作 , 即 视频 合成 操作 。 

(2) 模糊 润 饰 操 作 , 即 为 了 消除 局 部 复制 造成 的 可 视 自 改 痕迹 的 操作 。 

(3) MPEG 二 次 压缩 操作 ,在 完成 了 像素 域 的 自 改 操作 后 ,需要 对 图 像 序列 进行 重 
新 压缩 。 

此 外 数字 图 像 和 数字 音频 中 的 算 改 手段 也 可 以 应 用 于 数字 视频 。 


5. 3.2 ”数字 内 容 自 改 取证 方法 的 评价 指标 


算 改 检测 主要 是 为 了 解决 数字 多 媒体 数据 的 完整 性 和 原始 性 鉴定 问题 。 传 统 的 数 
字 水 印 技术 可 以 作为 算 改 检测 的 一 种 手段 ,但 在 现实 世界 中 , 绝 大 多 数 多 媒体 数据 没有 
嵌入 水 印信 息 ,因此 ,依赖 水 印 的 方法 不 太 现实 。 另 一 方面 ,任何 形式 的 自 改 操作 都 会 不 
可 避免 地 引起 多 媒体 数据 内 部 特征 尤其 是 统计 特征 的 变化 ,由 此 可 以 借助 不 需要 外 部 内 
入 信息 的 数字 取证 方法 来 实现 自 改 检测 。 不 管 是 何 种 数字 内 容 自 改 取证 ,其 评价 指标 都 
是 看 其 是 否 证 明了 数字 多 媒体 数据 是 否 完整 .数据 是 否 是 原始 的 等 问题 。 
数字 内 容 算 改 取证 方法 的 几 种 较为 常见 的 评价 指标 为 : 准确 度 (precision)、 完 整 度 
(recall) 和 Fi-measure。 假 设 P MR 分 别 表征 了 检测 算法 的 准确 度 和 完整 度 。 其 定义 公 
式 分 别 如 下 : 
实 警 率 


P= aR EEE "e 
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R= 实 警 率 

实 警 率 十 错误 和 否定 率 

从 式 (5-1) 和 式 (5-2) 可 以 看 出 ,高 的 检测 正确 率 需要 有 低 的 虚 警 率 (false positive) , 

而 高 的 完整 度 需要 有 低 的 错误 否定 率 (false negative) 。 其 中 ,检测 正确 率 主要 巾 正确 检 

测 区 域 的 所 占 的 概率 所 决定 ,因此 检测 正确 率 的 定义 可 以 直接 由 正确 检测 的 区 域 来 度 

量 。 而 检测 完整 度 主 要 是 由 于 正确 的 操作 区 域 被 检测 出 来 的 概率 来 度量 的 ,因此 检测 完 

整 度 的 定义 可 以 直接 由 检测 区 域 中 检测 出 的 已 变化 区 域 占 总 的 变化 区 域 的 比重 来 度量 。 
则 式 (5-1) 和 式 (5-2) 可 以 变 为 : 


(5-2) 


d pic pos N 检 出 区 域 


p= EB X 10074 (5-3) 
_ 算 改 区 域 站 检 出 区 域 、， 。 g 
R= a x 100% (5-4) 


然而 以 检测 正确 率 和 检测 完整 度 来 衡量 检测 算法 仍然 较为 片面 , 且 提 高 检测 正确 率 
会 降低 检测 完整 度 ,反之 亦 然 ,因此 两 者 的 评价 效果 不 能 达到 很 好 的 直观 性 。 将 两 个 指 
标 合并 ,形成 Fl-measure: 
2 n 
F; -measure = Egl =z PU. (5-5) 
P R 
以 数字 图 像 为 例 , 在 数字 图 像 自 改 检测 中 ,一 般 将 不 同 图 像 之 间 的 算 改 检测 算法 归 
纳 到 图 像 算 改 检测 的 盲 检测 中 ,通过 对 图 像 特征 的 提取 及 分 类 建立 算法 ,识别 出 算 改 图 
像 和 自然 图 像 。 此 类 算法 通常 采用 两 种 方法 对 算法 分 类 性 能 做 评价 : 一 种 是 常用 的 评价 
参数 TP.TN Accuracy, HP TP、TN 分 别 表示 真实 、 自 改 图 像 的 分 类 正确 率 ,Accuracy 
则 是 算法 中 最 为 关注 的 总 体检 测 正 确 率 。 而 另 一 种 是 用 AUCCArea Under the ROC 
Curve) 表 示 ROC(Receiver Operation Characteristics Curve) 曲线 下 的 面积 来 衡量 分 类 效 


果 。AUC 越 大 , 则 分 类 效果 越 好 。 
5.3.3 ”数字 内 容 篡改 取证 方法 


l. 数字 图 像 算 改 取证 方法 


数字 图 像 算 改 取证 方法 大 致 可 归纳 为 以 下 五 类 。 

1) 基于 像素 的 检测 方法 

通过 检测 像素 级 别 上 的 统计 异常 信息 可 判断 图 像 是 否 经 过 算 改 。 针 对 最 为 常见 的 
复制 -粘贴 算 改 类 型 ,可 以 采用 搜索 图 像 中 有 无 完全 相同 的 区 域 ,其 中 有 些 是 通过 比较 离 
散 余 弦 变 换 块 的 系数 ,有 些 是 通过 比较 图 像 块 的 主 元 分 量 。 这 类 方法 的 原理 很 简单 , 关 
键 是 如 何 提高 块 的 搜索 效率 以 及 抵抗 由 加 性 噪声 和 有 损 压 缩 而 引起 的 图 像 像素 的 轻微 
变化 。 还 有 提出 依据 重 采样 所 导致 的 特殊 周期 性 进行 算 改 检测 。 复 制 -粘贴 自 改 往往 伴 
随 有 缩放 、 旋 转 和 拉 伸 等 操作 ,而 缩放 、 旋 转 和 拉 伸 操作 可 以 看 成 是 图 像 信号 向 上 和 向 下 
采样 的 组 合 , 即 发 生 多 重 采样 ,这 会 在 图 像 信 号 中 留 下 重 采样 痕迹 ,使 图 像 中 像素 与 其 周 
像素 之 间 产 生 周期 性 的 相关 性 。 针 对 拼接 合成 自 改 操作 ,可 以 利用 像素 的 高 阶 统 计 特 
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性 进行 检测 ,特征 向 量 由 图 像 质 量 的 评价 测度 和 统计 和 矩 特 征 量 联合 构成 。 比 较 常 见 的 方 
法 主要 使 用 以 下 三 类 取证 特征 , 即 图 像 质量 特征 、 二 值 相 似 度 测度 以 及 高 阶 小 波 系数 统 
计 特 征 , 其 中 图 像 质 量 特征 又 包括 基于 像素 差 的 测度 、 基 于 相关 性 的 测度 、 基 于 边缘 的 测 
度 、 基 于 人 类 视觉 特征 的 测度 和 基于 频谱 距离 的 测度 ,然后 分 为 透视 、 半 育 和 全 盲 三 种 模 
式 来 讨论 自 改 问题 。 在 透视 模式 下 , 算 改 的 类 型 和 强度 都 已 知 ,可 比较 各 种 方法 对 于 算 
改 操作 的 敏感 度 ; 在 半 盲 模式 下 ,已 知 算 改 的 类 型 ,可 通过 比较 上 述 三 类 测度 的 改变 来 确 
定 自 改 强度 ;在 全 盲 模式 下 , 复 改 的 类 型 未 知 , 通 过 设计 不 同 的 讶 分 类 器 来 实现 对 不 同类 
型 算 改 的 检测 。 

2) 基于 压缩 格式 的 检测 方法 

取证 的 首要 准则 是 保护 证 据 ,从 这 层 意义 上 说 ,有 损 图 像 压缩 方案 可 能 是 取证 分 析 
的 最 大 障碍 。 然 而 有 损 压 缩 所 具有 的 独特 特性 还 可 被 用 于 取证 分 析 。JPEG 是 使 用 最 普 
遍 的 图 像 压 缩 格式 ,检查 JPEG 图 像 自 改 有 两 个 主要 的 途径 ; 双重 JPEG 压缩 和 JPEG 的 
块 效应 。 通 常 ,原始 图 像 和 算 改 后 的 图 像 都 用 JPEG 格式 保存 ,尽管 双重 JPEG 压缩 不 一 
定 表示 图 像 被 算 改 ,但 这 类 图 像 有 被 算 改 的 嫌疑 。 通过 分 析 离 散 余弦 变换 (Discrete 
Cosine Transform,DCT) 系 数 的 直方 图 在 单 次 和 两 次 压缩 下 的 不 同 ,可 以 通过 两 种 方法 
估计 第 一 次 压缩 时 所 使 用 的 量化 系数 。 第 一 种 方法 是 利用 不 同 量化 因子 进行 穷 举 试探 ; 
第 二 种 方法 利用 神经 网 络 分 类 器 进行 分 类 。 前 一 种 方法 计算 量 大 ,而 后 一 种 方法 计算 量 
相对 较 小 。 在 一 定 条 件 下 ,双重 压缩 后 DCT 系数 的 直方 图 上 会 存在 周期 性 的 噪声 ,利用 
DCT 系数 直方 图 的 傅 里 叶 变 换 可 以 估计 出 第 一 次 压缩 所 使 用 的 质量 因子 。JPEG 二 次 
压缩 的 检测 是 通过 将 JPEG 图 像 中 当前 像素 与 其 四 邻 的 差 值 构成 一 个 新 的 二 维 矩 阵 ,并 
用 一 步 Markov 随机 过 程 来 描述 这 个 差 值 矩阵 。 由 于 二 次 JPEG 压缩 减弱 了 了 上述 差 值 矩 
阵 中 元 素 之 间 的 相关 性 ,所 以 可 通过 分 析 差 值 矩 阵 中 元 素 相 关 值 的 分 布 来 确定 是 否 发 生 
二 次 JPEG 压缩 。 除 了 利用 双重 JPEG 压缩 的 特征 外 ,JPEG 的 块 效应 是 否 遭 到 破坏 也 
被 广泛 用 于 和 贷 改 检测 。 可 以 通过 引入 一 个 块 效 应 特征 矩阵 来 反映 未 经 剪 切 或 再 压缩 图 
像 的 对 称 性 ,并 指出 这 个 对 称 性 在 遭 到 剪 切 或 再 压缩 后 会 被 破坏 。 此 外 ,还 可 利用 DCT 
系数 直方 图 的 能 谱 在 图 像 修改 前 后 的 二 阶 差分 的 极 小 值 来 估计 量化 系数 ,然后 通过 计算 
并 比较 各 块 噪声 测度 确定 是 否 发 生 算 改 以 及 发 生 算 改 的 位 置 。 

3) 基于 成 像 设备 特性 的 检测 方法 

由 于 数码 相机 的 镜头 ` 成 像 传 感 器 和 数字 信号 后 处 理会 在 成 像 过 程 中 留 下 特有 的 设 
备 痕迹 和 噪声 ,可 以 通过 检查 设备 痕迹 和 噪声 的 一 致 性 来 判断 是 否 发 生 壬 改 。 例 如 ,一 
幅 自 然 图像 内 的 色彩 偏差 应 该 是 一 致 的 ,而 算 改 操作 会 破坏 这 种 一 致 性 。 所 以 可 以 根据 
色彩 偏差 的 一 致 性 判断 图 像 是 否 发 生 自 改 。 又 如 ,由 于 目前 大 部 分 数码 相机 只 有 一 片 
CCD 或 CMOS 成 像 传感器 ,所 获得 的 彩色 图 像 都 是 借助 颜色 滤波 器 阵列 (Color 
FilterArray,CFA) 的 插值 运算 得 到 ,而 不 同 数 码 相 机 采用 的 插值 方法 存在 差异 。 常 见 的 
插值 种 类 包括 双 线 性 插值 ` 双 三 次 插值 .基于 色调 缓慢 变换 的 插值 .根据 梯度 判断 边缘 走 
向 的 插值 以 及 基于 自 适应 原则 的 插值 等 ,所 有 这 些 插 值 运算 都 会 在 图 像 的 各 个 色彩 通道 
内 .像素 间 引 入 特殊 的 周期 性 的 统计 相关 性 。 可 以 通过 检测 插值 像素 的 周期 相关 性 是 否 
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被 破坏 判断 图 像 是 否 经 过 算 改 。 也 可 以 采用 检测 周期 性 的 最 大 似 然 估计 迭代 算法 一 一 
EM(Expectation/Maximization) 算法 进行 。 还 可 以 通过 检查 图 像 内 相机 响应 函数 
(Camera Response Function,CRF) 的 一 致 性 来 判别 图 像 的 自 改 历史 。 此 外 ,还 可 将 相机 
的 成 像 环 节 中 噪声 模型 参数 的 一 致 性 作为 图 像 臭 改 的 检测 依据 ,例如 从 图 像 去 品 、 小 波 
系数 分 析 和 邻 域 预 测 等 三 个 方面 提取 统计 特征 ,利用 支持 向 量 机 对 统计 噪声 特征 分 类 来 
确定 图 像 是 否 发 生 自 改 。 

4) 基于 物理 原理 的 检测 方法 

光照 条 件 尤其 适合 于 检测 拼接 -合成 类 型 的 自 改 图 像 。 通 过 检测 物理 对 象 . 光 线 和 相 
机 在 三 维 空间 中 两 两 交互 作用 之 间 的 异常 可 以 判断 图 像 是 否 发 生 算 改 。 图 像 算 改 可 归 
结 为 对 图 像 内 容 的 增加 、 删 除 ,更改 操作 ,一 般 是 将 一 幅 图 像 中 的 对 象 或 背景 与 另 一 幅 图 
像 的 背景 或 对 象 重新 组 合 形成 伪造 图 像 ,或 是 删除 图 像 中 的 某 一 对 象 或 背景 来 隐藏 重要 
的 目标 。 这 些 操 作 通常 会 破坏 自然 图 像 的 光照 一 致 性 ,而 自 改 操作 很 难 把 光照 效果 和 定 
向 的 光源 相 匹 配 ,因此 ,可 根据 图 像 中 场景 的 光照 不 一 致 性 鉴别 图 像 的 算 改 。 基 于 光学 
原理 检测 方法 的 关键 是 建立 物理 对 象 、 光 线 和 相机 之 间 的 光照 模型 。 已 有 研究 在 单 光源 
下 二 维和 三 维 光 照 模型 下 对 多 光源 复杂 环境 下 的 成 像 进行 了 讨论 ,并 给 出 了 一 个 复杂 光 
源 环 境 的 低 参 数 近似 模型 。 

5) 基于 对 象 几何 关系 的 检测 方法 

照相 机 中 心 在 图 像 平面 上 的 投影 点 称 为 “ 主 点 ”"。 在 所 拍摄 的 图 像 中 , 主 点 位 于 图 像 
中 心 附近 。 当 图 像 中 的 人 或 物 平移 时 , 主 点 也 成 比例 地 平移 。 通 过 检验 从 图 像 的 不 同 局 
部 所 估计 出 的 主 点 位 置 是 否 一 致 来 判断 图 像 内 容 是 否 经 过 了 改动 。 

总 之 ,图 像 自 改 检测 方法 中 前 三 类 方法 的 理论 基础 是 数字 图 像 处 理 \ 信 号 处 理 和 模 
式 识别 ,而 后 两 类 的 理论 基础 则 是 计算 机 视觉 和 光学 物理 。 


2. 数字 音频 算 改 取证 方法 


针对 模拟 音频 自 改 检测 的 研究 40 年 前 就 有 了 ,而 针对 数字 音频 算 改 检测 的 研究 则 
刚 开始 ,公开 的 研究 成 果 较 少 。 在 对 数字 音频 格式 , 算 改 软件 .音频 分 析 的 校 验 元 组 进行 
分 析 后 ,可 分 别 在 音频 波形 统计 特征 、 音 频 附带 背景 噪声 和 音频 格式 附加 信息 等 三 方面 
进行 自 改 检测 。 

D 基于 音频 波形 统计 特征 的 算 改 取证 方法 

“天 然 " 音 频 信号 在 频 域 上 具有 很 弱 的 高 阶 相关 性 ,而 大 多 数 自 改 操作 都 会 引入 一 定 
的 非 线 性 ,从 而 导致 信号 高 阶 相关 性 增强 ,使 原来 在 真实 人 声 频 域 上 很 弱 的 统计 相关 性 
变 为 较为 显著 的 高 阶 统计 相关 性 。 据 此 检测 音频 文件 是 否 经 过 算 改 。 

2) 基于 音频 附带 背景 噪声 的 算 改 取证 方法 

受 图 像 自 改 检测 方法 的 启发 ,可 以 利用 重 采样 信号 的 周期 性 检查 音频 中 所 发 生 的 复 
改 。 不 过 音频 信号 的 插值 检测 和 图 像 有 所 不 同 : 第 一 ,音频 在 短 时 内 有 静音 存在 ;第 二 ， 
即使 没有 插值 过 的 音频 的 局 部 也 可 能 呈现 很 强 的 线性 相关 。 这 两 点 使 得 EM 算法 无 法 
收敛 到 理想 的 结果 。 为 此 ,可 以 通过 引入 音频 幅度 直方 图 ,排除 短 时 静音 和 增加 样本 点 
数 ,以 使 图 像 的 重 采样 检测 算法 能 有 效 地 用 于 音频 信号 的 算 改 检测 。 


2s 数字 取证 技术 
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3) 基于 音频 格式 附加 信息 的 自 改 取证 方法 

此 外 ,还 可 利用 音频 文件 的 格式 信息 进行 自 改 检测 。 音 频 文件 格式 种 类 繁多 ,不 同 
格式 的 数字 音频 通常 都 包含 一 些 必要 的 附加 信息 ,包括 日 期 作者、 编码 格式 等 。 对 数字 
音频 材料 的 自 改 很 有 可 能 会 改变 这 些 附 加 信息 ,从 而 留 下 自 改 痕迹 。 


3. 数字 视频 篡改 取证 方法 


与 数字 图 像 相 比 ,数字 视频 的 获取 设备 以 及 编辑 软件 的 普及 度 较 低 ,相应 地 ,针对 数 
字 视 频 的 取证 技术 也 起 步 较 晚 。 在 MPEG 文件 中 ,IT.P、B 帧 的 编码 方式 不 同 ,I 帧 只 依 
赖 于 自身 信息 进行 JPEG 压缩 编码 ,P 帧 依赖 于 前 面 的 1 disk P 帧 的 运动 估计 和 运动 补 
偿 编 码 ,而 B 帧 则 利用 过 去 、 将 来 或 者 同时 利用 过 去 和 将 来 的 了 帧 或 P 帧 作 运动 估计 ,再 
按 类 似 于 P 帧 的 方式 进行 编码 。 当 受到 算 改 时 ,可 能 发 生 帧 丢失 。 通 过 计算 MPEG W 
频 流 中 每 个 P 帧 的 运动 误差 以 及 全 部 帧 的 平均 运动 误差 ,观察 运动 误差 中 周期 性 的 噪 
声 ,可 以 确定 是 否 发 生 自 改 。 

常见 的 数字 视频 自 改 检测 包括 两 种 情形 ; 第 一 种 是 针对 消除 隔行 扫描 后 的 视频 ;第 
二 种 是 针对 隔行 扫描 的 视频 。 对 于 第 一 种 情况 ,由 于 消除 隔行 扫描 的 两 种 基本 算法 是 场 
合并 和 场 扩 展 ,如 果 将 这 两 种 算法 看 成 是 一 种 周期 性 的 插值 模式 , 则 可 利用 EM 算法 来 
检测 插值 的 周期 性 。 当 周期 性 遭 到 破坏 时 ,可 认为 视频 遭 到 算 改 。 对 于 第 二 种 情况 , 通 
过 检测 一 帧 内 两 个 场 的 运动 或 相 邻 帧 中 场 的 运动 情况 ,可 判断 有 没有 发 生得 改 。 在 没有 
自 改 过 的 视频 中 ,运动 是 相等 的 ;而 在 自 改 过 的 视频 中 ,两 者 不 同 。 由 于 成 像 传感器 以 及 
摄像 机 内 部 电路 存在 非 理想 性 ,在 成 像 过 程 中 必然 会 产生 设备 噪声 ,并 被 添加 到 每 一 由 
视频 中 ,而 来 自 同一 台 摄 像 机 拍摄 的 视频 所 包含 的 噪声 存在 着 相关 性 。 借 用 同 种 图 像 自 
改 检测 的 思想 ,检测 前 可 先 从 参考 视频 中 计算 出 摄像 机 的 参考 模式 噪声 ,再 从 待 检测 视 
频 帧 中 计算 出 噪声 图 像 ,将 噪声 图 像 与 参考 模式 噪声 作 相关 性 比较 ,就 可 确定 是 否 发 生 
算 改 ,并 可 标定 出 算 改 的 位 置 。 


5.4 数字 内 容 来 源 取证 


5.4.1 数字 内 容 的 来 源 渠道 


数字 内 容 来 源 设备 辨识 依赖 于 这 样 的 假设 : 同一 设备 所 获取 的 所 有 多 媒体 数据 均 带 
有 该 设备 的 内 在 特征 ,这 些 特征 只 与 成 像 /录音 管道 以 及 该 设备 独 有 的 硬件 元 器 件 有 关 ， 
与 多 媒体 数据 所 表达 的 内 容 无 关 。 源 设备 辨识 包含 几 个 不 同 的 层面 : 设备 类 型 .设备 品 
牌 .设备 型 号 以 及 设备 个 体 ,其 中 设备 类 型 可 以 是 照相 机 、 扫 描 仪 . 摄 像 机 、 手 机 和 录音 
等 ,设备 个 体 指 某 一 台 特 定 设备 。 


1. 数码 相机 成 像 工作 原理 


数码 相机 (Digital Camera, DC) 是 由 镜头 电荷 克 合 器 件 (CCD) 、 模 / 数 转换 器 (A/D)、 
微 处 理 器 (MPU) .内置 存储 器 液晶 显示 器 (LCD)、 可 移动 存储 器 (如 PC 等 ) 和 接口 (如 
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计算 机 接口 .电视 机 接口 等 ) 等 部 分 组 成 ,通常 它们 都 安装 在 数码 相机 的 内 部 ,一 些 专业 
的 数码 相机 的 液晶 显示 器 与 相机 机 身 是 分 离 的 。 数 码 相 机 中 的 工作 原理 如 下 : 当 按 下 快 
门 时 ,镜头 将 光线 汇聚 到 感光 器 件 CCD 上 ,CCD 是 半导体 器 件 , 它 代替 了 普通 相机 中 胶 
卷 的 位 置 , 它 的 功能 是 把 光 信 号 转变 为 电信 号 。CCD 器 件 上 有 许多 光敏 单元 ,它们 可 以 
将 光线 转换 成 电荷 ,从 而 形成 对 应 于 景物 的 电子 图 像 ,每 一 个 光敏 单元 对 应 图 像 中 的 一 
个 像素 ,像素 越 多 图 像 越 清晰 ,如 果 想 增加 图 像 的 清晰 度 , 就 必须 增加 CCD 的 光敏 单元 
的 数量 。CCD 本 身 不 能 分 辩 色 彩 , 它 仅仅 是 光电 转换 器 。 实 现 彩色 摄影 的 方法 有 多 种 ， 
包括 给 CCD 器 件 表面 加 以 CF A CColor Filter Array ,彩色 滤 镜 阵列 ) ,或 者 使 用 分 光 系 统 
将 光线 分 为 红 、 绿 、 蓝 三 色 , 分 别 用 3 片 CCD 接收 。 这 样 , 就 得 到 了 对 应 于 拍摄 景物 的 电 
子 图 像 , 但 是 它 还 不 能 马上 被 送 去 计算 机 处 理 ,还 需要 按照 计算 机 的 要 求 进行 从 模拟 信 
号 到 数字 信号 的 转换 ,ADC( 模 数 转换 器 ) 器 件 用 来 执行 这 项 工作 。 接 下 来 MPU( 微 处 理 
器 ) 对 数字 信号 进行 压缩 并 转化 为 特定 的 图 像 格式 ,例如 JPEG 格式 。 最 后 ,图 像 文件 被 
存储 在 内 置 存储 器 中 。 至 此 ,数码 相机 的 主要 工作 已 经 完成 , 剩 下 要 做 的 是 通过 LCD GE 
唱 显 示 器 ) 查 看 拍摄 到 的 照片 。 有 一 些 数码 相机 为 扩大 存储 容量 而 使 用 可 移动 存储 器 ， 
如 PC 卡 或 者 软盘 。 此 外 ,还 提供 了 连接 到 计算 机 和 电视 机 的 接口 。 

数码 相机 要 实现 测 光 、 运 算 、 曝 光 、 闪 光 控 制 . 拍 摄 逻 辑 控制 以 及 图 像 的 压缩 处 理 等 
操作 ,数码 相机 通过 MPU 实现 对 各 个 操作 的 统一 协调 控制 。 数 码 相 机 中 的 存储 器 用 来 
保存 数字 图 像 数据 ,与 胶卷 不 同 的 是 存储 器 中 的 图 像 数 据 可 以 反复 记录 和 删除 。 数 码 相 
机 的 输出 接口 主要 有 计算 机 通信 接口 .连接 电视 机 的 视频 接口 和 连接 打印 机 的 接口 。 

拍照 手机 的 成 像 原理 与 数码 相机 基本 相同 ,不 同 之 处 在 于 拍照 手机 采用 的 感光 器 件 
d£ CMOS(Complementary Metal Oxide Semiconductor, 互 补 金属 氧化 物 半导体 ) ,后 处 理 
过 程 相 对 简单 , 故 分 辨 率 通 常 都 较 低 。 


2. 扫描 仪 成 像 工作 原理 


扫描 仪 (scanner) 是 一 种 高 精度 的 光电 一 体 化 的 高 科技 产品 , 它 是 将 各 种 形式 的 图 像 
信息 输入 计算 机 的 重要 工具 ,是 继 键盘 和 鼠标 之 后 的 第 三 代 计 算 机 输入 设备 。 从 最 直接 
的 图 片 、 照 片 . 胶 片 到 各 类 图 纸 及 各 类 文稿 都 可 以 用 扫描 仪 输入 到 计算 机 中 ,进而 实现 对 
这 些 图 像 的 处 理 、 管 理 、 使 用 .存储 和 输出 等 。 

扫描 仪 主要 由 光学 成 像 部 分 .机 械 传动 部 分 和 转换 电路 部 分 组 成 ,这 几 部 分 相互 配 
合 ,将 反映 图 像 特征 的 光 信 号 转换 为 计算 机 可 接受 的 电信 号 。 光 学 成 像 部 分 是 扫描 仪 的 
关键 部 分 ,也 就 是 通常 所 说 的 镜 组 。 扫 描 仪 的 核心 是 完成 光电 转换 的 光电 转换 部 件 , 目 
前 大 多 数 扫描 仪 采用 的 光电 转换 部 件 是 CCD, 它 可 以 将 照射 在 其 上 的 光 信号 转换 为 对 应 
的 电信 号 。 除 核心 的 CCD 外 ,其 他 主要 部 分 有 : 光学 成 像 部 分 的 光源 、 光 路 和 镜头 。 转 
换 电路 俗称 机 器 主板 , 它 负责 完成 一 切 电 路 的 伺服 工作 ,A/D 转换 工作 ,当然 也 包括 镜 组 
给 它 的 数字 信号 的 处 理 。 机 械 传动 部 分 包括 步 进 电 机 、 扫 描 头 及 导轨 等 ,主要 负责 主板 
对 步 进 电机 发 出 指令 带动 皮带 ,使 镜 组 按 轨道 移动 完成 扫描 。 

扫描 仪 工作 时 ,首先 由 光源 将 光线 照 在 欲 输入 的 图 稿 上 ,产生 表示 图 像 特征 的 反射 
光 ( 反 射 稿 ) 或 透射 光 ( 透 射 稿 ) 。 光 学 系统 采集 这 些 光 线 ,将 其 聚焦 在 CCD 上 ,由 CCD 
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将 光 信 号 转换 为 电信 号 ,然后 由 电路 部 分 对 这 些 信 号 进行 A/D 转换 及 处 理 , 产 生 对 应 的 
数字 信和 号 输送 给 计算 机 。 当 机 械 传动 机 构 在 控制 电路 的 控制 下 ,带动 装 有 光学 系统 和 
CCD 的 扫描 头 与 图 稿 进行 相对 运动 ,将 图 稿 全 部 扫描 一 遍 , 一 幅 完整 的 图 像 就 输入 到 计 
算 机 中 去 了 。 

扫描 仪 上 的 CCD 通常 包含 三 列 ,分别 用 红 ,\ 绿 、 蓝 色 的 滤 色 镜 单 住 ,从 而 实现 彩色 扫描 。 


3. 数码 摄像 机 工作 原理 


数码 摄像 机 (Digital Video Camera,DV) 基 本 原理 简单 地 说 就 是 光 - 电 -数字 信号 的 转 
变 与 传输 。 即 通过 感光 元 件 将 光 信 号 转变 成 电流 ,再 将 模拟 电信 号 转变 成 数字 信号 ,由 
专门 的 芯片 进行 处 理 和 过 滤 后 得 到 的 信息 还 原 出 来 就 是 我 们 看 到 的 动态 画面 了 。 由 于 
数码 摄像 机 采用 了 数字 电路 ,因此 数码 摄像 机 具有 图 像 质量 佳 \ 记 录 密 度 高 可靠 性 好 、 
成 本 低 以 及 具有 完美 的 录音 音 

DV 5 DC 的 区 别 在 于 DV 主要 用 于 拍摄 连续 动态 的 影像 ,静态 分 辩 率 较 低 ,每 帧 的 
数据 较 少 ,标准 PAL 制式 和 NTSC 制式 的 视频 信和 号, 如果 换算 成 像素 来 表示 的 话 , 单 幅 
画面 的 精度 都 不 足 30 万 像素 ,即使 新 兴 的 高 清晰 电视 HDTV , 单 幅 画 面 也 不 过 200 万 像 
素 (1920X1080 像素 ) ,在 拍照 方面 ,DV 的 效果 是 无 法 和 DC 比 的 。 


4. 数码 录音 机 工作 原理 


通常 ,可 通过 以 下 两 种 渠道 获得 数字 音频 。 第 一 种 就 是 将 现场 声 源 的 模拟 信号 或 已 
存储 的 模拟 声音 信号 通过 某 种 方法 转换 成 数字 音频 ;第 二 种 就 是 在 数字 化 设备 中 创作 出 
数字 音频 。 音 频数 字 化 通常 需要 经 过 三 个 阶段 , 即 采样 一 量化 一 编码 ,具体 步骤 如 下 。 

CD 将 话 简 转化 过 来 的 模拟 信号 以 某 一 频率 进行 离散 化 的 样本 采集 ,这 个 过 程 称 为 采样 。 

(2) 将 采集 到 的 样本 电压 或 电流 值 进行 等 级 量化 处 理 , 这 个 过 程 为 量化 。 

(3) 将 等 级 值 变换 成 为 对 应 的 二 进 制 信号 (0 和 1) ,并 进行 存储 ,这 个 过 程 称 为 编码 。 

通过 上 述 三 个 环节 ,连续 的 模拟 音频 信号 即 可 转换 成 离散 的 数字 信号 。 

要 衡量 一 个 数字 音频 的 音质 好 坏 ,通常 可 以 参考 以 下 指标 : 

。 采样 频率 : 采样 点 间 的 时 间 间 隔 , 通 常 采 用 的 间隔 时 间 越 短 ,音质 越 好 。 

。 量化 深度 : 单位 电压 值 和 电流 值 之 间 的 可 分 等 级 数 。 可 分 等 级 数 越 多 ,音质 越 好 。 

* 音频 流 码 率 : 数字 化 后 单位 时 间 内 音频 数据 的 比特 容量 。 流 码 率 越 大 ,音质 越 好 。 

数码 录音 笔 通过 对 模拟 信号 的 采样 、 编 码 将 模拟 信号 通过 数 模 转换 器 转换 为 数字 信 
号 ,并 进行 一 定 的 压缩 后 进行 存储 。 而 数字 信号 即使 经 过 多 次 复制 ,声音 信息 也 不 会 受 
到 损失 ,保持 原样 不 变 。 


5.4.2 数字 内 容 来 源 取证 方法 的 评价 指标 


现 有 的 源 设备 辨识 研究 成 果 主 要 集中 在 数字 图 像 ,其 他 源 设备 辨识 的 研究 成 果 还 不 
多 。 不 同 品 牌 的 数码 相机 通常 使 用 不 同 的 镜头 和 成 像 传感器 ,并 且 采 用 不 同 的 数字 信号 
后 处 理 运算 ,包括 去 马赛 克 、 伽 马 矫正 ` 色 彩 矫 正和 白 平衡 ` 压 缩 以 及 存储 等 。 因 此 ,即使 
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拍摄 同一 对 象 ,所 生成 的 数字 图 像 不 仅 在 风格 上 有 所 不 同 , 在 图 像 质量 上 也 存在 细微 差 
异 。 提 取 并 分 析 这 些 差异 特征 ,可 实现 对 图 像 生成 设备 的 源 辩 识 。 衡 量 图 像 源 辨识 指标 
主要 包括 检测 率 、 虚 警 率 和 ROC 曲线 。 

(1) 检测 率 (True Positve, TP): 数字 内 容 所 对 应 的 来 源 被 正确 识别 的 比率 。 其 计 
算 方式 是 样本 中 被 正确 识别 来 源 的 数字 内 容 数 目 与 所 有 数字 内 容 样本 的 比值 。 由 检测 
率 可 以 引申 出 漏 检 率 的 概念 , 即 : 

漏 检 率 ==1 一 检 出 率 

(2) 虚 警 率 FP(False Positive, FP); 数字 内 容 所 对 应 的 来 源 被 错误 识别 的 比率 。 其 
计算 方式 是 样本 中 被 错误 识别 来 源 的 数字 内 容 数 目 与 所 有 数字 内 容 样本 的 比值 。 由 虚 
警 率 可 以 引申 出 错误 和 否定 率 的 概念 , 即 : 

错误 否定 率 王 1 一 虚 警 率 

(3) ROC 曲线 : 在 数字 内 容 来 源 取 证 中 ,通常 用 ROC 曲线 来 描述 TP 和 FP 之 间 的 
关系 ,ROC 曲线 的 AUC 可 表征 分 类 器 的 性 能 。AUC 越 接近 1, 表 示 分 类 效果 越 好 , 反 
之 ,AUC 越 接近 于 0. 5, 说 明 分 类 性 能 越 差 。 


5.4.3 数字 内 容 来 源 取证 方法 


目前 ,数字 内 容 来 源 取证 方法 主要 集中 在 数字 图 像 来 源 取证 和 数字 视频 来 源 取 证 方 
面 , 在 数字 音频 来 源 取 证 方面 的 研究 较 少 。 为 此 ,这 里 只 对 常见 的 数字 图 像 来 源 取证 方 
法 和 数字 视频 来 源 取证 方法 进行 介绍 。 


1. 数字 图 像 来 源 取证 方法 


1) 基于 图 像 的 统计 特征 取证 方法 

基于 图 像 的 统计 特征 取证 方法 主要 利用 了 图 像 的 统计 特征 ,包括 彩色 图 像 R( 红 )、 
G( 绿 )、B( 蓝 ) 各 个 通道 上 的 像素 均值 ,彩色 通道 RB、BG、GR 之 间 的 相关 性 ,各 通道 上 像 
素 相 邻 分 布 (统计 与 各 个 像素 的 像素 值 相差 在 土 1 之 间 的 像素 个 数 ) 的 质心 ,三 个 彩色 通 
道上 图 像 两 两 之 间 的 能 量 比 ,每 个 通道 上 图 像 三 级 小 波 变换 后 各 个 子 带 图 像 小 波 系数 的 
均值 。 除 了 这 些 与 彩色 有 关 的 特征 外 ,还 可 利用 不 同 相机 产生 不 同 质 量 的 图 像 的 特点 。 
客观 的 图 像 质量 测度 可 分 为 三 类 : 基于 像素 值 差异 的 测度 (如 均 方 差 差 的 绝对 值 的 均值 
等 )、 基 于 相关 性 的 测度 (如 归 一 化 互相 关 等 ) 以 及 基于 频谱 距离 的 测度 (如 频谱 的 相 角 和 
幅 值 差 等 ) 。 这 些 特 征 构成 特征 向 量 , 作 为 支持 向 量 机 的 输入 ,进行 源 设 备 分 类 。 有 些 方 
法 还 利用 了 相机 镜头 特有 的 径 向 失真 ,为 了 降低 生产 成 本 ,大 部 分 相机 安装 了 球面 镜头 。 
不 同型 号 的 相机 所 安装 的 镜头 不 同 ,其 径 向 失真 也 不 同 ,因此 球面 镜头 本 身 的 径 向 失真 
可 以 作为 设备 指纹 使 用 。 径 向 失真 的 数学 表达 可 由 无 穷 级 数 描述 。 以 一 幅 图 像 的 中 心 
为 原点 , 取 级 数 的 一 阶 和 二 阶 系数 和 ks 描述 径 向 失真 的 程度 。k; 和 ks 可 单独 组 成 特 
征 向 量 作 为 支持 向 量 机 的 输入 ,也 可 和 图 像 的 统计 特征 联合 组 成 特征 向 量 。 利 用 径 向 失 
真 作为 特征 进行 分 类 的 主要 障碍 是 径 向 失真 具有 随 焦距 变动 而 改变 的 特点 ,这 导致 同一 
镜头 的 ki 和 ks 不 恒定 。 
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2) 基于 成 像 设备 机 器 指纹 的 取证 方法 

基于 成 像 设 备 机 器 指纹 的 取证 方法 的 思想 最 早 由 Fridrich 等 人 提出 。 由 于 材料 的 
缺陷 .工艺 的 不 完善 以 及 半导体 的 电子 噪声 ,任何 成 像 传感器 都 有 其 固有 的 模式 噪声 。 
传感器 的 模式 噪声 主要 由 两 部 分 构成 : 暗 电流 所 引起 的 固定 模式 噪声 (Fixed Pattern 
Noise,FPN) 和 光敏 材料 的 光子 响应 非 均 匀 性 (Photo Response Nonuniformity, PRNU) 
所 引起 的 模式 噪声 。FPN 是 加 性 噪声 ,中 高 档 相机 通过 减 去 一 个 暗 帧 可 以 消除 FPN ,所 
以 不 宜 作 为 设备 水 印 。 但 PRNU 模式 噪声 (下 文 直接 称 为 模式 噪声 ) 主 要 由 半导体 晶片 
的 非 均 匀 性 和 不 完美 性 产生 ,一般 不 易 消 除 , 故 可 当做 内 部 水 印 使 用 。 模 式 噪声 一 个 重 
要 的 性 质 是 其 高 频 分 量 与 所 拍摄 的 场景 无 关 , 并 在 相机 的 生命 期 中 相对 稳定 。 据 此 , 若 
将 模式 噪声 看 成 一 个 扩 频 水 印 , 就 可 借助 水 印 处 理 中 基于 相关 性 的 检测 手段 来 作出 判 
断 。 获 得 模式 噪声 的 方法 很 简单 ,直接 将 多 幅 原 始 图 像 减 去 其 低 通 滤波 图 像 所 得 到 的 差 
值 图 像 进行 到 加 再 求 平均 ,但 这 种 方式 所 提取 的 模式 噪声 易 受 其 他 噪声 的 干扰 ,包括 场 
景 (或 称 背景 ) 噪 声 .CFA 插值 噪声 和 JPEG 压缩 噪声 等 。 在 检测 前 通常 先 对 模式 噪声 做 
些 预 处 理 ,以便 去 除 不 相干 的 噪声 。 例 如 ,Alles 等 人 提出 消除 DCT 块 效应 ,而 Fridrich 
等 人 则 将 原始 图 像 减 去 其 低 通 滤波 图 像 所 得 到 的 图 像 认为 是 残 差 图 像 ,然后 根据 统计 信 
号 估计 理论 ,利用 最 大 似 然 估计 器 从 中 估计 出 较 精 确 的 模式 噪声 。 不 过 残 差 图 像 中 场景 
噪声 .CFA 搬 值 噪声 .JPEG 压缩 量化 噪声 以 及 其 他 各 类 噪声 的 综合 影响 破坏 了 利用 最 
大 似 然 估计 器 所 要 求 的 高 斯 白 噪声 的 假设 ,导致 估计 和 检测 不 得 不 在 近似 满足 高 斯 白 噪 
声 假设 的 各 个 分 块 进行 ,这 使 得 整个 算法 的 计算 量 较 大 。Goljan 等 还 将 第 二 类 方法 应 用 
到 更 复杂 的 场合 ,分 别 对 剪 切 和 拉 伸 后 的 图 像 以 及 从 扫描 仪 所 获取 的 图 像 进行 了 来 源 辨 
识 。 除 了 用 于 源 设备 辨识 ,Goljan 的 第 二 类 方法 也 可 进一步 推广 到 图 像 自 改 检测 ,其 工 
作 原 理 是 : 若 在 同一 图 像 中 检测 到 不 同 成 像 设备 所 获取 的 图 像 局 部 , 则 可 确定 该 图 像 内 
容 唱 到 算 改 。 

3) 基于 成 像 管道 特性 的 取证 方法 

基于 成 像 管道 特性 的 取证 方法 较 特殊 , 它 利 用 了 大 多 数 相机 必须 使 用 颜色 滤波 器 这 
个 事实 。 由 于 装 有 单 片 CCD CMOS 的 相机 只 能 通过 颜色 插值 才能 获得 彩色 图 像 ,而 
不 同 厂家 、 甚 至 不 同型 号 的 相机 使 用 不 同 的 插值 算法 ,因此 ,只 要 能 从 测试 图 像 中 估计 出 
插值 周期 ,就 可 推算 出 所 采用 的 插值 算法 ,从 而 追溯 出 源 相机 。 由 于 插值 点 的 像素 值 是 
由 邻 域 像素 的 值 加 权 求 和 而 来 ,借助 EM 算法 估计 插值 系数 ( 即 加 权 系数 ) ,并 输出 一 个 
反映 当前 像素 与 其 相 邻 像素 相似 性 的 二 维 概率 图 ,然后 在 此 基础 上 构造 相机 品牌 的 分 类 
器 ,并 且 进一步 分 析 了 常用 的 6 种 插值 算法 ,并 利用 主 元 分 析 和 神经 网 络 估计 插值 系数 。 

归纳 起 来 说 ,第 一 类 方法 利用 了 图 像 的 统计 特征 ,第 二 类 方法 利用 了 成 像 设 备 的 机 
器 指纹 ,而 第 三 类 方法 利用 了 成 像 管道 的 特性 。 手 机 、 扫 描 仪 和 打印 机 设备 源 辨识 的 方 
法 主要 借用 了 第 一 、 二 类 相机 源 辨识 的 思想 。 


2. 数字 视频 来 源 取证 方法 


视频 来 源 取证 是 指 根据 视频 采集 过 程 \ 处 理 过 程 遗留 的 痕迹 确定 视频 捕获 设备 ,其 
至 设备 型 号 ,以 追溯 视频 的 来 源 。 对 于 互联 网 上 算 改 伪造 视频 的 非法 传播 ,来 源 追 溯 尤 
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为 有 意义 。 甚 至 ,数字 视频 的 合法 版 权 所 有 者 也 可 以 借助 来 源 取证 技术 进行 视频 拷贝 
检测 。 

1) 基于 摄像 设备 内 在 特性 的 视频 来 源 取证 

标准 视频 文件 ,例如 AVI 文件 都 包含 了 文件 头 信息 ,可 以 得 到 捕获 设备 .采集 时 间 ， 
分 辨 率 和 帧 率 等 信息 ,但 是 它们 容易 被 修改 ,不 能 作为 取证 的 依据 。 一 种 可 行 的 方法 是 
提取 视频 捕获 设备 内 在 固有 的 一 些 特征 。 与 图 像 来 源 取证 类 似 ,数字 视频 的 来 源 辨 识 依 
赖 于 这 样 的 假设 : 同一 设备 所 获取 的 视频 数据 均 携 带 该 设备 的 内 在 特征 ,这 些 特征 只 与 
成 像 管 道 以 及 该 设备 独 有 的 硬件 元 器 件 有 关 , 与 多 媒体 数据 所 表达 的 内 容 无 关 。 与 真实 
性 取证 类 似 , 这 类 特征 包括 相机 的 镜头 失真 (chromatic aberration) , CCD 的 缺陷 或 者 响 
应 不 一 致 引起 的 传感器 模式 噪声 PRNU 等 。 

2) 利用 视频 码 流 特 征 进行 来 源 取证 

视频 来 源 取 证 还 可 以 借助 输出 数据 流 的 统计 特征 进行 。 视 频 编 码 标准 通常 只 规定 
了 编码 的 框架 ,特征 工具 和 解码 器 比特 流 的 句法 结构 等 ,而 编码 器 的 实现 具有 相当 大 的 
灵活 性 。 因 此 ,不 同 的 商家 采用 了 不 同 的 速率 控制 方案 后 ,每 帧 输出 的 码 流 会 在 码 率 的 
分 布控 制 上 会 有 很 明显 的 差异 。 甚 至 ,不 同 的 运动 估计 算法 ,编码 器 采用 不 同 的 匹配 准 
则 .搜索 路 径 等 ,都 可 能 为 视频 来 源 取 证 提供 依据 。 


5.5 数字 内 容 隐 密 分 析 取 证 


5.5.1 隐 密 分 析 取证 研究 概念 及 系统 模型 


隐 密 通信 的 系统 模型 可 以 用 图 5-7 表示 。 在 以 数字 图 像 作为 载体 的 情况 下 , 隐 密 通 
信 过 程 可 以 简单 地 描述 为 秘密 信息 经 过 编码 ,在 密 钥 的 控制 下 被 嵌入 到 原始 图 像 中 形成 
带 有 秘密 信息 的 隐 密 图 像 , 该 隐 密 图 像 通过 信道 传输 到 达 接收 方 ,接收 方 利用 已 知 的 密 
钥 从 隐 密 图 像 中 提取 出 秘密 信息 ; 隐 密 分 析 是 利用 秘密 信息 的 嵌入 可 能 引起 载体 数据 分 
布 特性 或 统计 特性 的 改变 ,分 析 在 信道 中 获得 的 可 能 的 载体 信息 ,从 而 检测 、 估 计 并 提取 
出 隐藏 的 秘密 信息 。 


秘密 信息 -| A -| _ 信 道 -| SH =| 秘密 信息 


] 


发 送 方 隐 写 分 析 接收 方 


图 5-7 隐秘 通信 的 系统 模型 


通常 所 说 的 隐 密 分 析 技 术 主 要 指 的 是 证 明 可 疑 图 像 中 是 否 隐藏 有 秘密 信息 或 者 进 
一 步 确定 秘密 信息 的 嵌入 量 。 而 能 够 作为 法 律 旺 堂 证 据 的 隐 密 分 析 取证 技术 的 目标 则 
是 提取 并 破译 出 隐藏 的 秘密 信息 。 所 以 从 一 般 的 意义 上 来 说 , 隐 密 分 析 取 证 过 程 由 以 下 
几 个 阶段 组 成 : 
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(1) 证 明 可 疑 图 像 中 是 否 隐藏 有 秘密 信息 。 

(2) 确定 使 用 的 隐藏 方法 。 

(3) 确定 秘密 信息 的 嵌入 量 和 嵌入 位 置 。 

(4) 如 果 嵌 入 算法 使 用 密 钥 ,寻找 戏 入 所 用 的 密 钥 。 
(5) 提取 出 隐藏 的 秘密 信息 比特 流 。 

(6) 对 秘密 信息 比特 流 进行 破译 解码 (密码 学 范畴 ) 。 
隐秘 分 析 取 证 系统 框图 可 以 用 图 5-8 表示 。 


一 一 一 | 确定 隐秘 软件 


! 
_ [是 否 隐藏 有 | | 确定 隐 二 or 。| 提取 加 密 的 | | 破译 提取 秘 | ， 
秘密 信息 藏 信息 TREA 比特 流 密 信息 


LL] 确定 秘密 信息 长 度 
和 嵌入 位 置 


图 5-8 隐秘 分 析 取 证 系统 框图 


以 下 分 别 从 一 般 性 的 分 析 方 法 、 针 对 性 的 分 析 方 法 以 及 解决 隐 密 分 析 取 证 系统 中 其 
他 问题 的 分 析 方 法 三 个 角度 ,对 隐 密 分 析 取 证 技术 的 系统 框架 进行 阐述 。 


5.5.2 隐 密 分 析 取 证 分 类 


虽然 目前 针对 性 隐 密 分 析 方 法 已 经 不 少 ,但 是 对 于 JPEG 格式 图 像 的 隐 密 分 析 取 证 
的 研究 还 有 很 多 关键 问题 没有 解决 ,所 以 , 它 仍然 是 隐 密 分 析 取 证 技术 研究 的 主要 方向 
之 一 。JPEG 图 像 格式 比较 复杂 ,对 于 在 DCT 域 进 行 的 信息 隐藏 的 分 析 难 度 较 大 。 因 
此 ,在 隐 密 技术 的 安全 性 不 断 提高 的 情况 下 ,研究 JPEG 图 像 的 隐 密 分 析 取 证 算法 就 成 为 
图 像 隐 密 分 析 取证 研究 中 的 难点 之 一 。JPEG 2000 图 像 格 式 是 近 几 年 发 展 起 来 的 图 像 
格式 ,这 种 图 像 格 式 因 其 在 压缩 率 、 支 持 无 损 压 缩 、 支 持 渐进 传输 和 支持 “ 感 兴趣 区 域 ”等 
方面 都 比 JPEG 格式 更 适合 于 在 网 络 中 传输 ,所 以 ,这 种 图 像 格 式 取代 JPEG 格式 已 经 成 
为 一 种 趋势 。 因 此 ,对 于 JPEG 2000 图 像 隐 密 算法 的 研究 已 经 出 现在 一 些 文献 中 。 相 应 
地 ,有 关 学 者 也 开始 研究 针对 这 种 格式 图 像 的 隐 密 分 析 算 法 。 由 于 JPEG 2000 格式 比 
JPEG 格式 更 加 复杂 ,因此 对 这 种 格式 图 像 进行 隐 密 分 析 也 是 隐 密 分 析 取 证 技术 研究 中 
的 难点 。 

从 隐 密 分 析 取证 系统 的 角度 考虑 , 现 阶段 大 多 数 隐 密 分 析 研 究 都 集中 在 检测 图 像 中 
是 否 隐藏 有 秘密 信息 ,而 不 是 提取 出 秘密 信息 。 如 果 能 进一步 解决 如 何 确定 隐 密 所 用 的 
方法 ,软件 、 密 钥 这 些 问 题 ,从 而 实现 对 秘密 信息 的 正确 提取 ,就 能 够 使 隐 密 分 析 进 一 步 
达到 隐 密 取证 的 要 求 。 因 此 对 于 隐 密 分 析 取 证 系统 中 尚未 解决 的 问题 ,如 确定 隐藏 方 
法 .嵌入 软件 .嵌入 密 钥 等 的 研究 也 是 目前 或 待 发 展 的 方向 。 

目前 ,典型 的 隐 密 分 析 手 段 分 为 针对 性 隐 密 分 析 算法 和 通用 性 隐 密 分 析 算 法 两 种 。 
其 中 ,针对 性 隐 密 分 析 算 法 是 针对 现 有 的 隐 密 技术 进行 分 析 , 因 为 在 分 析 以 前 已 经 知道 
使 用 了 哪 种 隐 密 技术 ,因此 分 析 起 来 就 较 容易 一 些 , 这 种 分 析 算法 的 最 终 目的 是 力求 估 
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计 出 携 密 载体 中 的 含 密 量 。 其 大 体 的 分 析 方 式 如 下 : 

CD 通过 需要 分 析 的 掩 密 技术 特征 找到 一 个 宏观 统计 量 S.S 与 秘密 信息 嵌入 容量 9 
之 间 存 在 一 种 可 预测 的 关系 。 

(2) 确立 S 与 秘密 信息 嵌入 容量 9 之 间 的 关系 。 

G) 此 关系 可 能 依赖 于 几 个 未 确定 的 参数 ,但 可 以 通过 一 些 极限 值 ( 比 如 原 图 和 最 大 
嵌入 量 时 含 密 图 像 的 S 值 ) 来 估计 这 些 参数 。 

(4) 计算 待 检测 图 像 的 统计 量 SC ,从 而 算出 秘密 信息 的 嵌入 容量 g。 通 用 性 分 析 
方法 又 被 称 为 “ 育 分 析 方 法 ”, 是 通过 提取 多 个 通用 特征 对 载体 样本 集 和 含 密 体 样本 集 的 
训练 建立 模式 分 类 器 ,再 用 此 分 类 器 判决 待 测 数据 是 否 含有 秘密 信息 。 由 于 训练 样本 和 
待 测 数据 都 将 映射 为 多 维特 征 空间 中 的 点 ,因此 此 类 方法 的 优 劣 主要 取决 于 所 用 统计 特 
征 的 通用 性 和 分 类 器 的 性 能 。 通 用 性 分 析 方 法 因为 没有 针对 某 一 种 具体 的 隐 密 方式 进 
行 分 析 , 所 以 相对 于 针对 性 隐 密 分 析 方 法 要 难 , 其 目标 是 力求 发 现 分 析 的 载体 对 象 中 是 
否 含 密 。 例 如 有 基于 BMP 图 像 .GIF RRA JPEG 图 像 三 种 不 同 格式 图 像 的 针对 特定 
隐 密 算法 的 隐 密 分 析 技术 。 


5.5.3. 隐 密 分 析 方法 的 评价 指标 


对 于 隐秘 分 析 方 法 的 评价 指标 主要 包括 : 检 出 率 、 漏 检 率 、 虚 警 率 、 和 否定 率 。 此 外 ， 
ROC 曲线 也 是 隐 写 分 析 算 法 评估 过 程 中 的 一 个 重要 指标 。 目 前 比较 新 颖 的 评价 指标 还 
有 检测 误差 .检测 复杂 性 以 及 检测 容量 与 检测 极限 。 


1. 检测 误差 


隐 写 分 析 方 法 的 检测 误差 定义 为 : 
P, = ple | wy) pCuxs) + ple | wi) p(w) (5-6) 
其 中 ,p(wo) 和 p(w) 分 别 表示 数字 内 容 中 不 含 隐秘 信息 和 含有 隐秘 信息 的 概率 ; 
plelwo) 和 plelw') 分 别 表 示 隐 写 分 析 算 法 的 虚 警 率 和 漏 检 率 。 


2. 检测 复杂 性 


对 于 隐 写 分 析 来 说 ,由 于 要 对 大 量 的 可 疑 数字 内 容 进 行 处 理 , 希 望 分 析 算法 越 简单 
越 好 、 检 测 软件 运行 速度 越 快 越 好 。 因 此 , 隐 写 分 析 算 法 的 检测 复杂 性 涉及 两 个 要 素 : 算 
法 复杂 性 和 检 出 时 间 。 一 般 来 说 ,算法 的 复杂 性 可 以 由 检 出 时 间 来 反映 。 因 此 ,在 不 考 
虑 算法 的 复杂 人 性 的 情况 下 ,可 以 给 出 检测 复杂 性 的 定义 。 

隐 写 分 析 算 法 单位 时 间 内 能 分 析 的 数据 大 小 为 该 算法 的 检测 复杂 人 性 ,或 称 作 检测 复 
杂 度 , 即 : 


EBENE - 
Com — ToT (5-7) 


式 中 ,Com 表示 检测 复杂 性 ,T; 表示 检测 张 图 片 中 第 i 张 图 片 的 用 时 ,S; 为 第 i 张 图 片 
大 小 ,Si 二 size(1;)。 检 测 复杂 性 的 运算 单位 为 : K b/s, 检 测 复 杂 性 也 称 为 检测 速度 。 
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3. 检测 容量 与 检测 极限 


在 分 析 隐 写 分 析 算法 检测 容量 之 前 ,首先 给 出 隐 写 算法 嵌入 容量 的 概念 ,本 书 提 到 
的 嵌入 容量 是 指 从 具体 隐 写 算法 嵌入 的 理论 角度 考虑 ,所 能 嵌入 的 最 大 信息 容量 。 例 
如 ,在 分 辩 率 为 256 X 256 的 lena. jpeg 中 用 JPHIDE 嵌入 ,允许 嵌入 的 最 大 信息 量 为 
7KB, 那 么 该 图 片 针 对 JPHIDE 的 嵌入 容量 则 为 7KB。 

隐 写 算法 的 理论 嵌入 率 的 定义 为 : 对 于 某 一 隐 写 算法 ,将 隐 写 算法 嵌入 数字 内 容 中 
的 信息 量 与 数字 内 容 对 该 算法 的 嵌入 容量 之 比 称 为 该 隐 写 算法 的 理论 嵌入 率 。 

从 定义 可 以 看 出 ,理论 最 大 嵌入 率 的 值 应 该 为 100%% , 即 嵌 入 信息 量 为 最 大 值 时 的 理 
论 嵌 和 人 率 。 定 义理 论 最 大 戏 入 率 的 目的 是 为 了 方便 确定 检测 上 限 。 

图 像 隐 写 分 析 算 法 检测 容量 的 定义 应 该 满足 以 下 两 个 条 件 : 

CD 检测 容量 范围 内 任意 一 点 的 检 出 率 P; 应 该 不 低 于 某 一 给 定 的 值 9。 

(2) 检测 容量 C, 是 隐 写 算法 允许 的 所 有 嵌入 率 尺 的 子 集 ,并 且 是 满足 上 一 条 件 的 
最 大 子 集 。 

考虑 到 上 述 条 件 , 给 出 隐 写 分 析 算 法 检测 容量 定义 为 : 对 于 某 一 图 像 隐 写 分 析 算 法 ， 
€ P; 宇 0(i€ C4), 且 CER, W C, 为 该 图 像 隐 写 分 析 算 法 的 检测 容量 。 一 般 情 况 下 , 秘 
密 信 息 的 嵌入 率 与 检测 算法 的 检 出 率 是 正比 例 关 系 。 把 检测 容量 范围 内 的 最 低 谋 和 人 率 
与 最 高 嵌入 率 称 作 该 隐 写 分 析 算法 的 检测 极限 ,分 别 为 检测 下 限 和 检测 上 限 。 分 别 用 符 
号 R 和 Rn 表示。 这 样 ,检测 容量 就 可 以 通过 式 (5-8) 进 行 计算 : 

C,—-R,—R, (5-8) 


5.5.4 常见 的 隐 密 分 析 方 法 
1. 一 般 性 隐 密 分 析 方法 


一 般 性 分 析 方法 主要 解决 的 是 隐 密 分 析 取 证 系统 中 的 第 一 个 问题 , 即 在 没有 任何 先 
验 知识 的 前 提 下 确定 图 像 中 是 否 隐藏 有 秘密 信息 。 一 般 性 分 析 方法 不 针对 于 任何 一 种 
嵌入 机 制 ,而 可 以 看 成 是 有 关 信 息 隐 藏 安全 性 定义 的 具体 实践 。 这 种 方法 假设 自然 图 像 
可 以 用 一 个 特征 集合 来 表示 。 通 过 对 较 大 图 像 库 中 的 图 像 计算 特征 得 到 自然 图 像 特征 
向 量 的 分 布 估计 ,并 利用 人 工 智 能 或 模式 识别 的 方法 设计 分 类 器 ,从 特征 空间 的 意义 上 
区 分 原始 载体 图 像 和 隐 密 图 像 。 尽 管 一 般 性 分 析 方 法 的 检测 正确 率 普遍 没有 针对 性 的 
分 析 方 法 高 ,但 是 一 般 性 的 分 析 方 法 具有 较 好 的 适应 性 。 对 于 新 的 隐 密 方法 ,针对 性 的 
分 析 方 法 需要 根据 其 隐藏 机 制 重 新 设计 ,而 一 般 性 分 析 方法 很 可 能 仅 需要 重新 训练 分 类 
器 即 可 。 

图 像 质 量 回 归 分 析 法 是 Avcibas 等 人 较 早 提出 的 使 用 训练 分 类 器 的 方法 进行 隐 密 分 
析 的 一 般 性 的 分 析 算法 ,该 算法 利用 的 是 图 像 隐藏 信息 之 后 必然 会 引起 图 像 质 量 下 降 的 
特性 。Avcibas 等 人 还 提出 了 基于 最 低位 平面 和 第 二 最 低位 平面 之 间 的 二 值 相似 性 的 方 
法 ,但 是 这 种 方法 只 适用 于 分 析 修 改 最 低 有 效 位 的 隐藏 算法 。 在 对 一 般 性 的 隐 密 分 析 方 
法 研究 中 ,Farid 提出 的 高 阶 统计 量 方法 比较 著名 ,其 思想 是 对 图 像 进行 可 分 离 的 正 交 镜 
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像 滤波 器 (QMFS) 分 解 ,选取 不 同 分 解 级 和 不 同 分 解 方向 (水 平 、 垂 直 和 对 角 ) 上 每 一 子 带 
系数 的 均值 .方差 、 偏 度 和 峰 度 以 及 系数 幅 值 的 最 优 线性 预测 误差 等 统计 量 作为 区 分 载 
体 图 像 和 隐 密 图 像 的 分 类 特征 矢量 ,并 用 线性 或 非 线性 分 类 器 进行 分 类 判决 。 该 方法 能 
对 大 多 数 的 隐藏 算法 进行 有 效 检测 ,但 是 检测 正确 率 还 没有 达到 理想 的 程度 。Fridrich 
在 研究 JPEG 图 像 的 兼容 性 、 分 析 F5 和 OutGuess 算法 之 后 ,综合 地 提出 了 针对 JPEG 
图 像 的 基于 特征 的 隐 密 分 析 方法 ,实现 了 对 于 JPEG 格式 图 像 隐藏 算法 的 一 般 性 分 析 。 
该 方法 对 于 F5 .OutGuess 和 MBI 这 些 隐 密 方 法 都 具有 较 好 的 检测 效果 。Harmsen fid 
出 了 使 用 直方 图 的 特征 函数 的 重心 作为 特征 的 分 析 方 法 ,这 种 方法 可 以 用 来 分 析 加 性 的 
信息 隐藏 机 制 , 如 空域 的 LSB 算法 和 扩 频 隐藏 算法 等 。 宣 国 荣 等 根据 Farid 和 Harmsen 
的 思路 ,提出 了 基于 小 波 系数 特征 函数 统计 特性 的 隐 密 分 析 方 法 ,其 思想 是 提取 图 像 及 
小 波 子 带 的 直方 图 特征 函数 的 重心 作为 特征 ,用 贝 叶 斯 分 类 器 进行 分 类 判决 。 


2. 针对 性 隐 密 分 析 方 法 


针对 性 的 分 析 方法 是 针对 不 同 隐 密 方法 的 嵌入 机 制 所 设计 的 分 析 方 法 。 针 对 性 
的 分 析 方 法 主要 解决 的 问题 是 在 已 知府 入 方法 的 前 提 下 ,确定 图 像 中 所 隐藏 的 秘密 信 
A I IE BE CHI EA EE), Fridrich 给 出 了 用 于 针对 性 分 析 隐 和 密 方法 的 通用 方法 论 ( 详 
见 5.5.2 节 )。 这 种 方法 的 优点 是 检测 时 没有 门限 的 约束 ,不 用 训练 ,而 且 可 以 估计 出 幅 
入 信息 的 长 度 。 

如 果 按 照 图 像 格式 进行 划分 ,针对 性 的 分 析 方 法 可 以 分 为 针对 BMP 图 像 和 JPEG 
图 像 等 图 像 格 式 的 分 析 方 法 。 目 前 针对 空域 LSB 替换 算法 的 分 析 技 术 比 较 成 熟 , 尤 其 是 
基于 统计 的 分 析 方 法 。 其 中 Westfeld 和 Pfitzmann 提出 的 chi-square 检测 算法 和 
Fridrich 提出 的 RS 算法 是 最 为 著名 的 方法 。RS 方法 利用 嵌入 信息 前 后 图 像 数据 相关 
统计 特征 的 差异 来 分 析 隐 密 图 像 ,但 是 这 种 方法 仅 对 于 LSB 替换 的 检测 有 效 , 而 不 能 分 
析 基 于 土 1 以 及 士 K 策略 的 隐 密 图 像 。 孔 祥 维 等 通过 分 析 嵌 入 信息 前 后 图 像 的 空域 特 
性 ,提出 使 用 统计 滤波 和 复杂 度 估计 的 方法 来 分 析 空 域 隐 密 算法 ,实验 结果 表明 该 算法 
对 软件 Stash-It v1. 1 具有 较 好 的 检测 效果 。Westfeld 提出 的 算法 是 分 析 土 1 的 最 早 的 
方法 之 一 ,该 方法 利用 了 秘密 信息 的 嵌入 会 增加 图 像 数据 中 颜色 对 的 数量 这 一 特性 。 
Andrew D. Ker 在 Harmsen 提出 的 直方 图 特征 函数 重心 特征 的 基础 上 ,研究 了 分 别 用 于 
检测 灰 度 BMP 图 像 和 彩色 BMP 图 像 的 士 1 嵌入 机 制 的 分 析 方法 ,首先 对 掩 密 图 像 用 均 
值 滤波 器 进行 降 采 样 处 理 从 而 估计 原始 载体 图 像 , 其 次 提出 用 相 邻 像素 直方 图 代替 普通 
直方 图 ,最 后 用 掩 密 图 像 与 估计 出 的 原始 图 像 的 直方 图 特征 函数 重心 的 比值 作为 特征 进 
行 分 析 。Fridrich 和 T. Holotyak 分 别提 出 了 用 于 检测 土 K 的 检测 算法 。 这 两 种 算法 都 
是 利用 随机 过 程 的 理论 来 估计 非 自 适应 士 K 算法 的 嵌入 容量 。 

JPEG 图 像 格式 由 于 色彩 允 真 、 占 用 存储 空间 小 ,已 经 成 为 在 互联 网 上 传输 的 主流 格 
式 。 目 前 已 经 出 现 了 许多 针对 JPEG 图 像 的 隐 密 算法 ,如 JSteg, FS, OutGuess, MB1, 
MB2 等 。 相 应 地 ,也 出 现 了 针对 以 上 隐 密 算法 的 分 析 算 法 。 针 对 JPEG 图 像 的 分 析 技 术 
最 初 由 A. Westfeld 和 A. Pfitzmann 提出 ,他 们 使 用 统计 Chi-square 检测 对 Jsteg 隐 密 算 
法 进行 分 析 , 通 过 用 Chi-square 检测 来 判定 待 测 图 像 的 量化 DCT 系数 直方 图 是 否 和 髓 
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入 过 信息 的 直方 图 匹配 ,从 而 判断 该 图 像 是 否 戏 入 了 秘密 信息 。 后 来 发 展 的 一 些 隐 密 算 
法 ,如 FS, Outguess 等 都 作 了 一 定 程度 的 改进 ,能 够 抵抗 Chi-square 分 析 。 为 此 Niels 
Provos 提出 了 一 种 扩展 的 Chi-square 检测 的 方法 。 同 样 也 是 利用 了 嵌入 后 的 图 像 的 
DCT 系数 直方 图 中 相 邻 的 DCT 频数 很 相近 的 原理 ,不 同 的 是 采用 了 固定 DCT 系数 的 样 
本 尺寸 ,通过 移动 采样 的 位 置 对 不 同位 置 的 DCT 系数 进行 检测 , 求 出 一 系列 的 检测 概 
率 。 但 是 Chi-square 检测 的 方法 仅 给 出 了 待 测 图 像 含 有 秘密 信息 的 可 能 性 大 小 ,也 就 是 
待 测 图 像 直 方 图 相对 于 隐 密 图 像 直 方 图 的 近似 程度 ,并 没有 对 秘密 信息 的 长 度 进行 估 
计 。 另 外 实验 情况 也 证 明 Chi-square 检测 和 广义 Chi-square 检测 的 准确 性 很 不 稳定 , 因 
此 在 实际 应 用 中 的 局 限 性 很 大 。 张 涛 等 提出 了 一 种 快速 有 效 的 针对 顺序 或 随机 Jsteg 类 
隐 密 算法 的 分 析 方 法 ,该 算法 根据 量化 后 DCT 系数 一 阶 统计 特性 进行 分 析 , 对 顺序 
Jsteg 和 随机 Jsteg 均 有 效 ,能 够 较为 准确 地 估计 出 秘密 信息 的 长 度 。 于 小 亿 等 也 提出 了 
类 似 的 分 析 方 法 ,利用 广义 柯 西 分 布 来 描述 量化 后 DCT 系数 的 一 阶 统计 特性 。 用 这 个 
模型 估计 出 的 原始 图 像 量 化 DCT 系数 直方 图 与 真实 直方 图 非常 接近 ,估计 效果 很 好 。 
全 伟 伟 等 利用 量化 表 门 限 表 和 单 通道 量化 后 DCT 系数 分 布 ,提出 了 一 种 新 的 分 析 JSteg 
隐 密 算法 的 隐 密 分 析 方法 ,该 方法 能 够 适用 于 不 同 来 源 的 图 像 。 

Fridrich 认为 如 果 隐 密 后 的 图 像 没 有 因为 信息 嵌入 而 留 下 可 检测 的 痕迹 ,那么 该 方 
法 就 是 安全 的 。 也 就 是 说 , 隐 密 图 像 应 该 与 载体 图 像 有 相同 的 统计 特性 。FS TEE TER 
入 信息 的 过 程 中 会 导致 收缩 现象 的 出 现 , 使 得 量化 后 的 DCT 系数 中 的 0 显著 增加 。 虽 
然 它 基 本 保持 了 DCT 系数 的 一 阶 统计 特性 ,但 毕竟 不 是 完全 保持 。Breaking the FS 算 
法 就 是 利用 了 这 个 改变 。 根 据 FS 的 算法 ,Fridrich 推导 出 相应 的 估计 秘密 信息 长 度 的 公 
式 , 但 其 中 的 参数 需要 知道 原始 载体 图 像 直方 图 的 信息 。 因 此 她 提出 用 校准 的 方法 来 估 
计 原 始 载 体 图 像 : 解 压缩 待 测 图 像 , 用 一 个 3X3 的 模板 进行 均值 滤波 ,然后 剪 切 4 列 , 再 
用 与 隐 密 图 像 相同 的 量化 矩阵 压缩 ,认为 这 种 方法 得 到 的 图 像 就 是 对 原始 载体 图 像 的 估 
计 。 空 间 上 剪 切 4 列 可 以 打破 DCT 的 8X8 结构 ,做 低 通 滤波 可 以 消除 8X8 的 块 效应 ， 
这 样 估计 到 的 载体 图 像 , 其 DCT 系数 的 统计 特性 与 实际 的 载体 图 像 就 十 分 接近 了 。 其 
中 Fridrich 也 给 出 了 针对 双重 压缩 所 采取 的 措施 。 但 是 这 种 方法 对 图 像 的 来 源 较为 敏 
感 。 在 Attacking the outGuess 的 方法 中 ,她 同样 使 用 了 上 述 校准 估计 原 图 的 方法 ,并 使 
用 8X8 像素 块 边界 的 不 连续 性 作为 统计 量 。R. Bohme 提出 用 一 阶 统计 特征 对 MB1 进 
行 分 析 检测 ,其 思想 是 利用 JPEG 图 像 DCT 系数 一 阶 统计 特征 的 局 外 系数 特性 ,也 就 是 
说 ,虽然 DCT 系数 大 致 是 服从 含 参数 的 广义 柯 西 分 布 ,但 是 总 有 一 些 个 别 的 DCT 系数 
存在 ,使 得 其 总 体 分 布 不 是 完全 的 服从 模型 分 布 。 由 于 MB 算法 本 身 的 安全 性 很 高 ,所 
以 目前 还 没有 更 多 更 好 的 分 析 检 测 方法 。 


3. 解决 隐 密 分 析 取证 系统 中 其 他 问题 的 隐 密 分 析 取证 方法 


前 面 介 绍 的 一 般 性 和 针对 性 的 隐 密 分 析 方 法 只 解决 了 隐 密 分 析 取 证 系统 中 的 两 个 
问题 , 即 图 像 中 是 否 隐藏 有 秘密 信息 以 及 如 何 确定 隐藏 秘密 信息 的 容量 。 然 而 ,要 达到 
隐 密 分 析 取 证 的 最 终 目的 还 必须 解决 其 他 的 问题 :确定 隐藏 方法 或 软件 ,寻找 嵌入 密 钥 ， 
提取 秘密 信息 。 
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在 确定 一 幅 图 像 中 隐藏 有 秘密 信息 之 后 ,还 要 分 析 所 用 的 隐 密 方法 , 即 解决 隐 密 分 


析 取 证 系统 中 的 第 二 个 问题 , 才 有 可 能 根据 隐 密 算法 提取 出 秘密 信息 。Fridrich 等 人 根 
据 分 析 FS、Outguess、MB 所 使 用 的 图 像 校准 方法 和 图 像 统计 特征 提出 了 用 多 类 分 类 器 
分 析 隐 密 图 像 中 所 使 用 的 隐 密 算法 或 隐 密 软件 ,包括 FS, Outguess, Steghide, JP 
Hide&seek 和 MB, 但 是 这 些 方法 目前 局 限于 对 JPEG 格式 图 像 的 隐 密 算法 进行 分 类 分 
析 。 在 分 析 基 于 密 钥 的 隐 密 算法 中 , Fridrich 等 人 提出 了 寻找 JPEG [E18 Ea 98 $E TE HA 
秘密 信息 所 用 密 钥 的 方法 ,之 后 又 提出 了 相应 的 用 于 寻找 空域 隐 密 算法 的 嵌入 密 钥 的 方 
法 , 即 解决 隐 密 分 析 取 证 系统 中 的 第 四 个 问题 :如 果 嵌 入 算法 使 用 密 钥 ,还 需 分 析 隐 密 所 
用 的 密 钥 。 在 获得 隐 密 方法 所 用 的 密 钥 ,并 已 知 隐 密 算法 或 隐 密 软件 的 基础 上 ,就 有 可 
能 提取 出 图 像 中 所 隐藏 的 秘密 信息 。 
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思 考 题 


什么 是 数字 取证 ? 电子 证 据 有 什么 特点 ? 

在 各 类 存储 介质 中 有 哪些 数据 可 以 作为 证 据 ? 
数字 取证 原则 有 哪些 ? 写 出 数字 取证 过 程 。 

网 络 取证 有 什么 特点 ? 请 画 出 网 络 取证 模型 。 
写 出 IDS 取证 的 具体 步骤 。 

利用 蜜 阱 技术 进行 取证 分 析 时 ,一 般 遵循 哪些 原则 ? 
模糊 专家 取证 系统 包含 哪 几 个 组 件 ? 

归纳 总 结 你 知道 的 数字 取证 工具 。 
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文本 内 容 安全 


本 章 学 习 目标 

文本 信息 是 数字 内 容 中 最 为 常见 的 信息 载体 之 一 ,其 表现 形式 多 样 。 本 章 将 介绍 文 
本 信息 的 基本 概念 与 文本 内 容 的 安全 技术 ,具体 包括 文本 内 容 加 密 、 文 本 水 印 及 文本 隐 
写 分 析 技 术 等 。 

通过 本 章 的 学 习 , 应 掌握 以 下 内 容 : 

(1) 文本 的 概念 、 分 类 、 特 点 及 表示 形式 。 

(2) 自然 语言 处 理 技术 。 

(3) 文本 的 加 密 技术 。 

(4) 文本 的 数字 水 印 技术 。 

(CO 文本 过 滤 及 文本 分 类 技术 。 

(6) 文本 隐 写 及 分 析 技 术 。 


6.1 文本 内 容 安全 基本 概念 


文本 数据 是 信息 隐藏 中 非常 重要 的 一 类 数据 。 随 着 全 球 信息 数字 化 进程 的 日 益 加 
快 ,我 们 日 常 工作 生活 中 直接 接触 的 各 种 文本 载体 资源 已 经 成 为 人 们 不 可 或 缺 的 事物 。 
例如 ,各 种 通过 互联 网 传输 的 文本 资源 、 各 种 格式 的 公文 处 理 文档 等 文本 数据 ,以 及 扫描 
成 文本 图 像 的 个 人 档案 、 医 疗 记录 、 学 历 证 书 、 专 利 证 件 、 手 写 签名 ,设计 图 样 、 馆 藏 图 书 、 
机 要 文件 等 。 人 们 通过 频繁 地 利用 上 述 这 些 文本 资源 进行 交流 、 沟 通 、 联 系 和 工作 ,因此 
有 关 文 本 的 版 权 保护 、 内 容 验 证 等 安全 问题 就 成 为 必须 考虑 的 重要 事项 ,本 章 将 针对 文 
本 内 容 安 全 的 各 个 方面 进行 介绍 。 

由 于 自然 文本 中 可 以 有 许多 种 语言 ,而 每 种 语言 的 自然 文本 具有 不 同 的 特点 ,要 建 
立 能 适用 于 各 种 语言 的 自然 文本 的 精确 模型 是 很 困难 的 。 现 有 的 模型 一 般 都 是 针对 某 
一 方面 的 需求 或 者 根据 文本 的 某 个 特点 而 建立 的 ,能 从 某 个 角度 来 对 文本 做 比较 细致 的 
解析 ,而 难以 从 所 有 方面 对 文本 都 有 精确 的 分 析 , 所 以 对 于 自然 语言 的 处 理 和 分 析 是 很 
有 必要 的 。 
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6.1.1 文本 数据 的 概念 .分 类 及 表示 


1. 文本 数据 的 基本 概念 


(1) 文本 数据 不 同 于 图 像 的 像素 编码 视频 的 帧 编码 及 语音 的 音频 编码 等 ,以 字符 编 
码 为 主 来 表现 信息 的 数据 , 它 以 电子 文档 的 形式 存储 和 传播 。 一 个 符号 ,如 果 具 有 记录 
语言 的 功能 ,我 们 便 可 以 将 它 视 为 一 个 文字 ,文本 即 是 由 这 些 文字 符号 所 组 成 的 一 个 序 
列 , 文 本 就 是 文字 信息 的 数字 化 表示 所 形成 的 电子 文件 。 文 本 数据 编码 简单 .数据 量 小 、 
传输 便捷 ,可 以 和 传统 的 印刷 方式 的 文档 进行 相互 转换 .打印 扫描、 识别 等 ,因而 得 到 了 
广泛 的 应 用 。 

在 现 有 的 数字 多 媒体 数据 中 ,许多 都 是 文本 数据 ,如 TXT, DOC, PDF, HTML, 
XML,EML,XLS,PPT,CHM, WPS, ASP, BAT, BAS, PRG, CMD 以 及 数据 库 文件 等 。 
针对 不 同 的 应 用 范围 .不同 的 表述 对 象 ,文本 可 以 具有 不 同 的 描述 。 在 网 络 化 时 代 , 文 本 
数据 也 是 互联 网 络 中 最 常见 和 使 用 最 多 的 一 种 媒体 形式 。 

(2) 文本 图 像 是 把 文字 资料 通过 图 文 扫描 仪 .数码 相机 等 数据 采集 设备 生成 的 图 像 ， 
它 不 是 能 用 机 器 立即 阅读 及 处 理 的 文字 符号 编码 文件 ,而 是 以 数字 点 阵 表示 的 像素 为 基 
本 单元 进行 处 理 , 存 储 的 图 像 文件 。 文 本 图 像 是 以 文字 、 表 格 、 图 形 等 文本 信息 为 主要 内 
容 特 征 的 静止 图 像 。 文 本 图 像 的 特点 是 文字 的 书写 形式 与 文字 所 表达 的 内 容 同 样 重要 ， 
即 若 仅 将 其 中 的 文字 提取 出 来 变 为 普通 文本 格式 进行 传输 , 则 会 失去 或 部 分 失去 该 文本 
图 像 所 要 表达 的 内 容 。 在 实际 应 用 中 ,人 们 常常 将 文字 、 表 格 .图 形 等 文本 信息 记录 在 纸 
张 上 作为 信息 存储 和 交流 的 基本 形式 。 作 为 一 种 灰 度 图 像 ,文本 图 像 可 以 通过 互联 网 方 
便 地 传输 ,而 在 传输 的 过 程 中 ,文本 图 像 的 编码 格式 和 数据 格式 与 普通 的 连续 色调 的 灰 
度 图 像 都 完全 相同 。 

纯 文 本 格式 ,就 是 没有 任何 文本 修饰 的 .没有 任何 粗 体 ,下划线 、 斜 体 、 图 形 、 符 号 或 
特殊 字符 及 特殊 打印 格式 的 文本 ,只 保存 文本 ,不 保存 其 格式 设置 。 将 所 有 的 分 节 符 、 分 
页 符 .新 行 字符 转换 为 段落 标记 ,用 ANSI 字符 设置 ,只 有 在 目标 程序 无 法 阅读 任何 其 他 
有 效 的 文件 格式 时 才 选 择 这 种 格式 。 常 见 的 纯 文本 格式 文件 的 扩展 名 : TXT, HTM, 
ASP,BAT,BAS,PRG,CMD 等 。 


2. 文本 数据 的 分 类 


由 于 文本 数据 的 类 型 比较 多 ,分 类 方法 也 多 种 多 样 。 

CD. 按 内 容 表 现形 式 可 以 分 为 格式 化 数据 和 非 格式 化 数据 。 格 式 化 数据 中 ,编码 相 
同 的 字符 可 以 有 不 同 的 外 在 表现 样式 ,如 文字 之 间 可 以 设置 不 同 的 字 距 ,行距 ,可 以 有 不 
同 的 字体 、 颜 色 、 尺 寸 等 ,如 DOC, WPS, PDF 等 数据 就 属于 格式 化 数据 。 而 非 格式 化 数 
据 中 ,不 同 的 字符 只 有 编码 的 不 同 , 没 有 表现 形式 的 不 同 , 如 TXT 就 属于 非 格式 化 数据 。 

(2) 按 编码 方式 的 不 同 可 以 分 为 TXT, PDF, DOC, RTF, HTML 等 ,通常 每 种 文本 
编辑 器 都 有 自己 的 编码 方法 。 而 同一 个 文本 中 的 数据 根据 功能 的 不 同 又 可 以 分 为 :消息 
主体 (message) , 它 是 文本 中 的 主体 内 容 , 所 有 表达 语义 的 文字 对 应 的 编码 数据 都 是 属于 
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这 一 类 ;文档 标记 (markup) , 它 描述 文本 的 逻辑 结构 和 物理 属性 ,如 文本 的 编码 和 版 本 标 
识 , 格 式 化 文本 中 的 标记 字符 以 及 字体 、 高 度 、 间 距 等 ;附件 (appendent) ,如 文本 中 的 图 像 
等 额外 的 非 字符 编码 数据 ,以 及 注释 等 。 


3. 文本 数据 的 特点 


数字 化 数据 表现 的 信息 对 感知 系统 来 说 ,有 的 是 可 以 感知 的 ,比如 一 篇 文档 中 的 文 
字 、 黑 白 图 像 中 的 像素 点 对 人 的 眼睛 来 说 是 可 以 感觉 到 的 ;而 有 些 信息 是 感知 系统 感觉 
不 到 的 ,比如 真 彩色 图 像 中 最 低 比特 位 所 表现 的 信息 则 已 超出 人 了 眼 的 感觉 范围 。 这 些 超 
出 感知 系统 感知 范围 的 数据 ,对 感知 系统 来 说 ,就 属于 元 余数 据 ; 另 一 方面 ,在 信息 的 数 
字 化 过 程 中 ,这 些 元 余部 分 存在 着 一 定 的 随机 性 。 那 么 ,将 这 些 具有 某 种 随机 性 的 元 余 
数据 替换 为 其 他 随机 数据 ,对 感知 系统 来 说 是 无 关 紧 要 的 。 图像 .视频 、 音 频 等 载体 中 的 
信息 隐藏 正 是 利用 这 些 数据 存在 元 余数 据 的 特点 ,在 元 余数 据 中 嵌入 信息 。 

由 于 文本 数据 不 存在 编码 元 余 , 改 变 其 中 任何 一 个 比特 都 将 使 文本 发 生 可 以 感知 的 
变化 。 因 此 在 文本 中 进行 隐藏 就 不 同 于 图 像 .音频 中 的 信息 隐藏 , 它 需要 使 用 特殊 的 方 
式 来 嵌入 信息 ,文本 信息 隐藏 技术 就 应 运 而 生 了 。 文 本 信息 隐藏 技术 是 研究 各 种 在 文本 
中 嵌入 信息 的 方法 ,以 及 如 何 提高 隐藏 容量 ,如 何 提高 嵌入 信息 的 安全 性 ,并 根据 隐藏 方 
法 开发 实用 的 隐藏 工具 的 一 门 技术 。 


4. 文本 数据 的 表示 


为 了 以 数学 形式 表示 文本 的 语义 内 容 , 常 采用 向 量 空间 模型 (Vector Space Model， 
VSM) , 即 不 考虑 文本 中 词 ( 或 其 他 语义 单元 ) 的 顺序 ,将 文本 简化 并 表示 为 特征 (feature) 
权重 的 向 量 。 其 中 特征 是 指 文 本 中 的 某 些 词 或 其 他 表示 语义 的 单元 ,所 有 表示 向 量 所 在 
的 向 量 空间 称 为 特征 空间 。 还 有 一 些 VSM 之 外 的 文本 表示 模型 如 基于 特征 概率 分 布 、 
基于 二 维 视图 等 模型 ,将 文本 理解 为 信号 序列 ,高 阶 词 统计 (High Order Word Statistics) 
及 NLP(Natural Language Process) 等 ,但 在 应 用 上 都 还 存在 局 限 。 

布尔 模型 是 向 量 模型 的 一 种 特例 ,根据 特征 是 否 在 文档 中 出 现 ,特征 的 权 值 只 能 取 
1 或 0。 许 多 时 候 , 使 用 二 值 特征 的 分 类 效果 并 不 比 考虑 特征 频率 的 差 。 

目前 ,VSM 模型 相关 研究 仍然 集中 在 以 什么 语义 单元 作为 特征 及 特征 的 权重 确定 
两 个 问题 上 。 大 部 分 工作 仍旧 以 词 ( 或 n-gram) 作 为 特征 ,以 特征 的 频率 为 基础 计算 权 
重 , 如 TF-IDF(term Frequency-inverse document frequency) 等 。 最 新 的 工作 则 将 一 些 
特征 对 类 别 的 显著 性 统计 量 (如 XX 等 ) 引 入 到 权重 的 计算 中 ,使 得 支持 向 量 机 SVM 及 线 
性 方法 的 分 类 效果 相对 使 用 TD-IDF 权重 有 不 同 程度 的 提高 。 


6.1.2 文本 字符 的 编码 方式 


文本 数据 主要 是 以 字符 编码 的 形式 来 表现 信息 的 数据 ,本 节 介 绍 常见 的 字符 编码 
prm 

COD ANSI: 系统 预 设 的 标准 文字 储存 格式 。ANSI 是 American National Standards 
Institute 的 缩写 。 它 成 立 于 1918 年 ,是 一 个 自愿 性 的 组 织 , 拥 有 超过 1300 个 会 员 ,包括 
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所 有 大 型 的 计算 机 公司 。ANSI 专 为 计算 机 工业 建立 标准 , 它 是 世界 上 相当 重要 的 标准 。 

(2) Unicode: 世界 上 所 有 主要 指令 文件 的 联 集 , 包 括 商业 和 个 人 电脑 所 使 用 的 公用 
字 集 。 当 采用 Unicode 格式 储存 文件 时 ,可 使 用 Unicode 控制 字符 辅助 说 明 语 言 的 文字 
覆盖 范围 ,如 阿拉 伯 语 、 希 伯 来 语 。 用 户 在 “记事 本 ”中 输入 含有 Unicode 字符 的 文字 并 
储存 文件 时 ,系统 会 提示 你 必须 选取 “另存 为 ”中 的 Unicode 编码 ,这 些 字 符 才 不 会 被 遗 
失 。 需 要 提醒 大 家 的 是 , Windows 2000 中 部 分 字 型 无 法 显示 所 有 的 Unicode 字符 。 如 
果 发 现 文件 中 缺少 了 某 些 字符 ,只 需 将 其 变更 为 其 他 字 型 即 可 。 

(3) Unicode big-endian: 在 Big-endian 处 理 器 (如 苹果 Macintosh 电脑 ) 上 建立 的 
Unicode 文件 中 的 文字 位 元 组 (存放 单位 ) 排 列 顺序 ,与 在 Intel 处 理 器 上 建立 的 文件 的 文 
字 位 元 组 排列 顺序 相反 。 最 重要 的 位 元 组 拥有 最 低 的 地 址 , 且 会 先 储存 文字 中 较 大 的 一 
端 。 为 使 这 类 计算 机 的 用 户 能 够 存 取 你 的 文件 ,可 选择 Unicode big-endian 格式 。 

(4) UTF-8; UTF 意 为 通用 字 集 转换 格式 (Universal Character Set Transformation 
Format , UTF-8 是 Unicode 的 8 位 元 格式 。 如 果 使 用 只 能 在 同类 位 元 组 内 支持 8 个 位 
元 的 重要 资料 一 类 的 旧式 传输 媒体 ,可 选择 UTF-8 格式 。 


6.1.3 自然 语言 处 理 


文本 信息 隐藏 与 自然 语言 处 理 (Natural Language Processing, NLP) 有 着 紧密 的 联 
系 , 本 小 节 将 简要 介绍 与 本 文 研究 工作 相关 的 NLP 基础 。 

所 谓 自然 语言 , 指 的 是 人 们 日 常 使 用 的 语言 ,如 汉语 、 英 语 、 日 请 等 , 它 是 相对 于 人 造 
的 计算 机 语言 而 言 的 。 从 计算 机 科学 的 角度 看 ,NLP 的 任务 是 建立 一 种 计算 模型 ,这 种 
计算 模型 能 够 像 人 那样 “理解 ”自然 语言 。 然 而 ,由 于 自然 语言 固有 的 复杂 性 ,人 们 对 自 
已 理解 语言 的 机 制 也 还 是 不 其 了 了 。 说 话 人 可 以 用 不 同 的 话 表 达 同 样 的 意愿 ,也 可 以 用 
同一 句 话 表 达 不 同 的 意思 。 反 过 来 ,对 于 同一 句 话 ,不 同 的 听话 人 也 会 有 不 同 的 反应 。 
不 过 ,由 于 请 言 是 信息 的 载体 ,关于 计算 机 对 自然 语言 的 理解 一 般 可 以 根据 实用 的 信息 
处 理 的 观点 来 进行 评判 ,如 果 计 算 机 系统 实现 了 人 机 会 话 、 机 器 翻译 、 自 动 文摘 或 抑 扬 顿 
挫 带 有 感情 地 朗读 文章 等 语言 信息 处 理 功 能 , 则 认为 计算 机 具备 了 一 定 程 度 的 理解 自然 
语言 的 能 力 。 目 前 ,自然 语言 处 理 的 研究 成 果 已 在 数据 库 系统 设计 、 大 型 软件 包 、 人 工 智 
能 研究 、 专 家 系统 设计 等 领域 得 到 了 广泛 的 应 用 。 


1. 自然 语言 的 分 布 模型 


1) 马尔 可 夫 模 型 与 字母 分 布 
马尔 可 夫 模 型 认为 ,自然 语言 中 一 个 符号 对 先前 的 符号 有 某 种 依赖 性 ,一 个 符号 是 
先前 一 个 或 更 多 的 符号 决定 的 , 即 : 
PG, | tasto 6 — PU taste) (6-1) 
式 中 ,ti 为 文本 中 第 i 个 字符 。 
由 于 对 先前 符号 的 依赖 ,字符 集中 的 符号 不 是 均匀 分 布 的 。 例 如 ,在 英语 中 ,通过 对 
大 量 自然 文本 的 统计 ,各 个 字母 的 出 现 概率 如 表 6-1 所 示 。 对 自然 文本 来 说 ,其 字符 出 
现 的 概率 跟 表 所 列 非常 接近 。 这 接近 程度 可 以 用 相似 度 来 描述 : 
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表 6-1 自然 英文 文本 的 字母 统计 频率 


* 母 Am ox 字 母 5 g * o aA x 
E 0.1268 L 0.0394 P 0. 0186 
Y 0.0978 D 0. 0389 B 0. 0156 
A 0. 0788 U 0. 0280 M 0. 0102 
o 0.0766 C 0. 0268 K 0. 0060 
I 0.0707 F 0. 0256 X 0. 0016 
N 0.0706 M 0. 0244 J 0. 0010 
8 0. 0634 w 0.0214 Q 0. 0009 
R 0.0594 Y 0. 0202 Z 0. 0006 
H 0. 0573 G 0. 0187 


EAD fi CO 4 IUE 2 个 概率 分 布 , 其 中 ,一 1,2,…,26( 分 别 对 应 A,B,…,2), 则 
万 (GD 、 户 GD 的 相似 度 定义 为 : 


26 
MIAG-RAO|I 
i=l 


a=1 


26 

z 1 LM LG — fe€D | (6-2) 
VY AGO- 450: s 

2 个 概率 分 布 越 接近 , 则 相似 度 越 大 ,完全 一 样 时 相似 度 为 1; 反 之 ,2 个 概率 分 布 差 
异 越 大 ,相似 度 越 小 。 自 然 文本 的 字符 分 布 与 上 述 参考 频率 分 布 的 相似 度 是 很 高 的 , 当 
对 文本 词汇 进行 某 些 修改 后 ,相似 度 会 发 生 改 变 , 且 修改 越 大 相似 度 变化 也 越 大 。 

2) Zipf( 齐 普 夫 ) 分 布 模型 与 单词 分 布 

在 自然 文本 中 ,不 同 单词 的 频率 分 布 是 有 差别 的 。Zipf 分 布 模型 认为 , 排 在 最 频繁 
出 现 的 单词 第 ; 位 的 词 频 是 排 在 第 1 位 的 词 频 的 1/2?(9 为 阶 数 ) 倍 。 这 表明 , 设 个 单词 
的 文本 , 且 其 中 包含 V 个 单词 的 词汇 表 , 排 在 最 频繁 出 
现 单词 第 i 位 的 词 频 值 是 na/(iH,(9)), 其 中 ,H,(9) 定 


义 如 下 : 

H.(0) = X (6-3) 
因此 ,文本 中 单词 按 频 率 降序 排列 时 的 频率 分 布 如 o "ug 
图 6-1 所 示 。 图 6-1 排序 的 词 频 分 布 


统计 发 现 ,自然 文本 中 频繁 出 现 ( 出 现 次 数 高 于 
3 次) 的 单词 占 整个 文本 单词 的 比例 普遍 在 15% 以 上 ,经 常 是 少数 的 几 个 单词 占 整个 文 
本 单词 数量 的 50% 以 上 ,而 且 文 本 越 长 ,这 个 比例 也 越 大 。 

3) Heaps 定律 与 单词 平均 长 度 及 空 字符 率 

Heaps 定律 认为 ,词汇 表 中 单词 的 长 度 的 增长 与 文本 的 大 小 成 对 数 关 系 , 文 本 越 长 
就 会 出 现 越 长 的 单词 。 但 在 整个 文本 中 ,因为 短 词 出 现 的 次 数 也 相应 地 增多 ,所 以 单词 
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的 平均 长 度 是 一 个 常数 。 

根据 Heaps 定律 还 可 得 到 自然 文本 中 空 字符 率 ( 空 字符 的 比率 ) 的 结论 , 即 空 字 符 率 
也 应 接近 于 一 个 常数 。 

空 字符 不 能 连续 出 现 两 次 或 多 次 。 当 通过 空格 隐藏 法 在 文本 中 嵌入 空 字符 后 , 空 字 
符 率 将 不 可 避免 地 变 大 。 

设 原文 本 大 小 为 T( 字 节 ), 空 字符 数量 为 *, 嵌 入 空 字符 数量 为 S, 则 空 字符 率 ， 

R,— (S+s)/(T S) = (S/T+s/T)/(1+ S/T) 
= (uc 0/0 (6-4) 

Hisp deii A Eo 是 原始 文本 中 的 空 字符 率 。 
对 一 个 给 定 的 文本 而 言 ,R, Bl p 呈 次 线性 变化 ， 
其 变化 关系 如 图 6-2 所 示 。 


2. 自然 语言 处 理 的 关键 技术 


自然 语言 处 理 是 一 个 多 边缘 的 交叉 学 科 , 除 0 
语言 学 外 还 涉及 计算 机 科学 数学、 统计 学 .电子 图 6-2 空 字符 随 空 字符 数量 的 变化 关系 
工程 心理 学 ,哲学 以 及 生物 学 等 知识 领域 , 它 是 
在 各 个 相关 学 科 的 交融 和 协作 中 逐渐 成 长 起 来 的 。 在 历史 上 ,自然 语言 处 理 曾 经 在 计算 
机 科学 .电子 工程 .语言 学 和 心理 认 知 语言 学 等 不 同 的 领域 分 别 进行 过 研究 。 目 前 一 些 
关键 的 自然 处 理 技术 有 以 下 几 种 。 

1) 词法 分 析 

所 谓 的 词法 分 析 就 是 对 一 个 句子 或 一 个 词 进 行 切 分 ,使 得 切 分 后 的 词 或 句子 是 一 个 
完整 的 意思 ,在 这 一 类 中 最 常见 的 即 为 文本 分 词 技术 。 

书面 汉语 不 同 于 英语 、 德 语 、 法 语 等 印 欧 语 言 ,英语 、 德 语 、 法 请 在 书写 时 , 词 与 词 之 
间 用 空格 分 开 , 因 而 词 与 词 之 间 的 界限 在 书面 上 是 泾 渭 分 明 的 ,而 中 文 文本 是 按 句 连 写 
的 ,例如 “计算 机 科学 领域 ”, 词 间 无 间 际 ,通常 要 将 “计算 机 ” 划 归 为 一 个 词 ,而 不 是 将 “ 计 
算 ” 单 独 划 分 为 一 个 词 ,因而 在 中 文 文本 处 理 中 ,首先 遇 到 的 问题 是 词 的 切 分 问题 。 按 句 
连 写 转换 为 按 词 连 写 , 词 的 正确 切 分 是 进行 中 文 文本 处 理 的 必要 条 件 。1992 年 我 国 出 台 
了 《信息 处 理 用 现代 汉语 分 词 规范 》, 分 词 规范 的 主体 结构 共 分 为 五 大 部 分 : 主题 内 容 、 适 
用 范围 .引用 标准 、 术 语 概述 和 具体 说 明 , 它 将 对 规范 汉语 信息 处 理 ,对 各 种 信息 处 理 系 
统 的 兼容 性 和 诸 料 资源 共享 起 到 促进 作用 。 

自 20 世纪 80 年 代 提出 研制 汉语 自动 分 词 软件 以 来 ,已 经 提出 了 多 种 分 词 方法 ,如 
正 向 最 大 匹配 、. 逆 向 最 大 匹配 .有 穷 多 层 列 举 、 邻 接 约束 、 联 想 - 回 溯 、 词 频 统 计 、 专 家 系 
统 、 神 经 元 网 络 等 方法 。 不 同 的 分 词 方法 模拟 了 人 类 分 词 行为 的 不 同 侧面 ,取得 了 不 同 
的 成 效 , 并 且 已 应 用 在 不 同 用 途 的 中 文 信息 处 理 系统 。 

2) 词性 标注 

词性 标注 即 在 给 定 的 句子 中 判定 每 个 词 最 合适 的 词性 标记 。 词 性 标注 的 正确 与 否 
将 会 直接 影响 到 后 续 的 句法 分 析 、 语 义 分 析 , 是 信息 处 理 的 基础 。 
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词性 标注 的 意义 在 于 : 

(1) 为 更 高 层次 的 自然 语言 文本 加 工 提供 素材 。 

(2) 为 语言 学 的 研究 提供 翔实 的 资料 。 

(3) 从 加 工 过 的 文本 中 获取 词类 及 频 度 的 词性 标注 知识 。 

常用 的 词性 标注 模型 有 N 元 模型 . 隐 马 尔 科 夫 模型 .最 大 炉 模 型 .基于 决策 树 的 模型 
等 。 其 中 , 隐 马 尔 科 夫 模型 是 应 用 较 广泛 且 效 果 较 好 的 模型 之 一 。 

3) 句法 分 析 

句法 分 析 就 是 指 对 句子 中 的 词语 语法 功能 进行 分 析 , 如 “妈妈 来 晚 了 ”, 这 里 “妈妈 ” 
是 主语 光 来 ?是 谓语 必 晚 了 ?是 补 语 。 句 法 分 析 现 在 主要 的 应 用 在 于 信息 处 理 中 ,如 机 器 
翻译 等 。 它 是 语 块 分 析 思 想 的 一 个 直接 实现 , 语 块 分 析 通 过 识别 出 高 层次 的 结构 单元 来 
简化 句子 的 描述 ,从 不 同 的 句子 中 找到 语 块 规律 的 一 条 途径 是 学 习 一 种 语法 ,这 种 语法 
能 够 解释 我 们 所 找到 的 分 块 结 构 。 这 属于 语法 归纳 的 范畴 。 

迄今 为 止 ,在 句法 分 析 领 域 中 存在 很 多 争议 ,也 许 你 会 发 现 恰 巧 有 人 提出 了 与 你 正 
在 努力 研究 的 语法 归纳 程序 偶然 产生 的 相似 的 句法 结构 ,而 且 这 些 也 可 能 已 经 被 当成 了 
句法 结构 模型 的 证 据 。 但 是 ,这 些 找到 的 结构 依赖 于 学 习 程 序 中 隐 含 的 归纳 偏 置 。 这 也 
指明 了 另外 一 个 方向 ,我 们 需要 事先 知道 模型 能 够 找到 什么 样 的 结构 ,同时 应 该 首先 确 
定 我 们 对 句子 进行 句法 分 析 的 目的 。 

4) 语义 分 析 

一 个 词语 “水 分 "是 指 物体 内 所 含 的 水 的 水 分 ,还 是 比喻 某 一 情况 中 夹杂 的 不 真实 
的 成 分 的 水 分 ,在 这 种 情况 下 就 要 分 析 句 子 的 语 境 ,利用 语义 分 析 来 确定 出 这 个 词 的 


6.1.4 文本 内 容 安 全 的 技术 分 类 


在 当今 的 信息 社会 中 ,每 天 都 有 大 量 的 信息 在 传输 、 交 换 、 存 储 和 处 理 , 在 这 些 日 常 
文档 应 用 、 传 送 、 保 存 过 程 中 既 要 保证 文档 数据 的 安全 ,又 不 能 影响 正常 的 工作 交流 ,这 
就 关乎 文档 的 安全 了 。 文 本 安全 主要 受 两 方面 的 影响 ,一 是 内 部 攻击 ,二 是 外 部 攻击 。 
内 部 攻击 是 指 任何 可 以 访问 目标 电子 文档 系统 的 内 部 员工 都 构成 威胁 。 外 部 攻击 是 指 
一 些 攻击 者 在 强烈 的 动机 驱使 下 ,能 够 利用 多 种 复杂 的 策略 和 技术 进行 复合 攻击 ,这 些 
攻击 者 也 构成 了 严重 的 威胁 。 所 以 文本 安全 工作 贯穿 着 文本 管理 的 每 个 环节 ,对 电子 文 
件 的 使 用 与 管理 提出 了 更 加 严格 的 安全 性 要 求 。 它 特别 强调 电子 文本 的 原始 性 、 保 密 性 
和 完整 性 ,严格 防止 非 授 权 用 户 的 访问 和 破坏 。 

目前 常见 的 文本 内 容 安 全 技术 有 : 

(1) 文本 加 密 技术 ; 

(2) 文本 的 隐 写 与 水 印 技术 ; 

(3) 文本 过 滤 及 分 类 技术 ; 

(4) 文本 的 隐 写 分 析 技术 。 

接 下 来 会 分 节 详 细 介 绍 以 上 每 种 技术 。 
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6.2. 文本 内 容 加 密 技术 


6.2.1 文本 内 容 加 密 技术 的 分 类 


文本 加 密 技术 就 是 保障 信息 安全 的 最 基本 、 最 核心 的 技术 措施 。 由 第 2 章 内 容 可 
知 ,文本 加 密 技术 主要 是 通过 对 文本 数据 的 加 密 和 数字 签名 来 实现 的 。 其 中 对 数据 的 加 
密 处 理 主要 是 为 了 防止 数据 不 会 被 窃听 。 数 据 加 密 的 加 密 方式 有 两 种 ,一 种 是 传统 的 对 
称 密 钥 加 密 方法 ,就 是 加 密 方 用 一 把 密 钥 对 数据 进行 加 密 ,而 解密 方 用 同样 一 把 密 钥 对 
数据 进行 解密 。 第 二 种 是 非 对 称 密 钥 加 密 方式 ,如 果 使 用 这 种 非 对 称 密 钥 加 密 算 法 È 
可 以 保证 对 发 送 方 和 接收 方 身份 的 确认 。 同 时 数字 签名 实际 上 是 由 生成 摘要 和 生成 数 
字 签 名 两 部 分 构成 。 其 中 摘要 可 以 防止 文件 被 自 改 ,从 而 保证 信息 的 完整 性 ;而 数字 签 
名 则 是 为 了 保障 在 商务 活动 中 数据 的 不 可 否认 性 ,从 而 使 数据 具有 法 律 上 的 意义 。 


6.2.2 典型 的 文本 加 密 方法 


1. 基于 Chen-Mobius 变换 的 文本 信息 加 密 法 
首先 把 文本 信息 变换 成 数字 信息 ,然后 用 适当 波形 对 其 进行 编码 ,最 后 加 载 在 Chen- 


Mobius 变换 | Mobius 变换 , 即 1— 29D ] 加 密 丽 数 上 ,通过 网 络 向 外 传输 。 在 接收 端 ， 


先 通过 解密 函数 进行 解密 ,再 通过 反 变 换 , 恢 复原 来 的 文本 信息 。 
文本 信息 在 密码 学 里 面 被 称 为 明文 ,而 加 载 在 Chen-Mobius 变换 之 后 的 信息 称 为 密 
文 , 通 过 网 络 和 串口 传输 的 就 是 密 文 。 系 统 原理 如 图 6-3 所 示 。 


7 L_。 | 变换 为 二 进 制 控 SEN 提取 数据 逆 | D ues. 
文本 信息 制 的 波形 6) P ”变换 输出 文本 


| 


Chen-Mobius Chen-Mobius 
换 加 密 变换 解密 


图 6-3 ”应 用 了 Chen-Mobius 变换 的 信息 加 密 系统 


应 用 键 控 原 理 , 把 文本 信息 变换 为 二 进 制 的 ASCII 码 ,而 后 将 其 作 适 当 变换 ,再 把 二 
进 制 的 0.1 用 不 同 的 波形 编码 ,然后 加 载 在 Chen-Mobius 变换 上 形成 密 文 。 应 用 Chen- 
Mobius 变换 对 这 些 波形 加 密 和 解密 的 实质 就 是 对 波形 进行 调制 和 和解 调 。 

数据 处 理 的 原理 是 : 如 果 用 幅 值 是 1 的 一 个 周期 的 波形 代表 1, 幅 值 是 0.1 的 波形 代 
K 0; 则 幅 值 1 的 波形 的 峰 峰 值 为 2, 幅 值 0. 1 的 波形 的 峰 峰 值 为 0. 2; 通 过 for 循环 里 面 
设置 一 个 比较 空间 与 1 进行 比较 ,输出 大 于 等 于 1, 则 输出 布尔 量 1 ,否则 为 布尔 量 0。 然 
后 八 位 0、1 的 布尔 量 , 经 布尔 数组 转换 成 数字 的 控件 变换 成 数字 ,再 利用 数字 变换 为 字 
符 串 的 控件 , 变 成 字符 串 输出 ,最 后 输出 文本 信息 。 
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2. 字符 与 汉字 的 加 密 方法 


Windows 下 的 字符 集 采 用 Unicode 字符 集 , 它 容量 大 ,可 置换 的 范围 广 。 在 Unicode 
字符 集中 ,所 有 字符 的 内 码 都 占 两 个 字 节 ,因此 ,如 果 对 Unicode 字符 进行 加 密 运 算 , 需 
要 两 个 密 钥 ,其 取 值 范 围 为 0 一 255, 其 中 一 个 用 于 对 高 字 节 加 密 ,一 个 用 于 对 低 字 节 进 行 
加 密 , 这 样 将 某 个 字符 的 高 、 低 字 节 分 别 加 以 运算 后 ,生成 另外 一 个 0 一 255 之 间 的 数 , 然 
后 再 将 它们 合成 为 另 一 个 字符 ,从 而 置换 数据 达到 数据 加 密 的 作用 ,解密 时 则 相反 。 例 
dil 854] ki —68. 1; =134, WFF A 的 低 字 节 为 65, 它 和 已 异 或 后 为 5,A 的 高 字 节 为 0， 
ÈH k 异 或 后 还 是 134 ,两 者 合成 的 字符 为 “ 薪 ”。 再 如 光 密 ”的 低 字 节 为 198, 和 kk 异 或 
后 为 130, 它 的 高 字 节 为 91, 和 k 异 或 后 为 221 ,两 者 合成 , 则 为 一 个 不 可 见 的 字符 。 


3. 序列 加 密 算法 


序列 加 密 算法 是 明文 的 位 串 与 伪 随 机 数 产生 器 产生 的 位 串 经 过 适当 的 运算 而 得 到 
的 密 文 。 在 序列 加 密 算法 中 ,相同 的 明文 位 串 可 以 有 不 同 的 密 文 位 串 , 其 结构 图 如 图 6-4 
所 示 。 


明文 位 串 一 一 | 加 密 器 L---------| 解密 器 上 一 一 明文 位 串 


随机 数 产生 器 | 一 一- 一 一- J 


密 钥 
图 6-4 序列 加 密 算法 结构 图 


序列 加 密 算法 的 安全 性 在 于 随机 数 产 生 器 的 密 钥 位 串 是 否 够 “ 乱 ”, 及 产生 的 位 串 周 
期 是 否 够 长 。 传 统 的 随机 数 产生 器 有 : 线性 反馈 移 位 寄存 器 、 线 性 同 余 产 生 器 、 非 线性 随 
机 数 产 生 器 及 裁剪 随机 数 产 生 器 等 。 但 传统 的 随机 数 产 生 器 所 产生 的 伪 随 机 序列 加 密 
效果 不 理想 ,例如 为 增强 算法 的 保密 性 和 安全 性 ,利用 Logistic 映射 ,Henon 映射 来 作为 
两 个 混沌 发 生 器 ,产生 混沌 序列 对 明文 进行 交替 加 密 。 由 于 Logistic 映射 是 一 个 一 维 混 
沌 映射 ,而 Henon 映射 是 一 个 二 维 混沌 映射 , 故 利用 它们 来 进行 交替 加 密 解 决 了 低 维 混 
沌 序列 保密 性 不 够 的 缺点 。 


6.3 文本 隐 写 与 文本 水 印 技术 


在 所 有 人 类 的 传播 媒介 中 ,文字 的 地 位 最 为 重要 。 可 以 确定 的 是 ,无 论 传 播 技 术 和 
媒体 形式 如 何 变 化 ,文字 在 传承 人 类 文明 和 推动 社会 进步 上 的 作用 是 其 他 任何 形式 的 媒 
体 难 以 比拟 的 。 因 此 ,在 文本 中 隐藏 信息 及 骨 入 数字 水 印 进行 版 权 保护 内 容 认 证 、 操 作 
跟踪 具有 十 分 重要 的 意义 ,这 些 技术 的 重要 性 是 显而易见 的 。 

信息 隐藏 研究 和 应 用 的 主要 领域 有 隐 写 术 (steganography) 领域 和 数字 水 印 (digital 
watermarking) 领 域 。 隐 写 强调 如 何 将 秘密 信息 隐藏 在 多 媒体 信息 中 而 不 被 他 人 发 现 ， 
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既 隐 藏 了 秘密 信息 的 内 容 又 同时 隐藏 了 秘密 信息 通信 的 存在 事实 。 经 过 隐 写 处 理 过 的 
信息 与 未 处 理 过 的 信息 从 表面 上 看 是 同样 的 ,混杂 在 万 千 的 信息 之 中 ,使 保密 通信 从 “看 
不 懂 ” 转 变 为 “看 不 见 ”, 容 易 逃 脱 攻击 者 的 破解 和 攻击 ,如 同 生物 伪装 于 环境 之 中 免 遭 攻 
6 一 样 ,此 点 正 是 隐 写 术 区 别 于 密码 术 的 根本 所 在 。 数 字 水 印 指 将 秘密 信息 府 入 被 保护 
信息 中 ,用 来 证 明 被 保护 信息 的 版 权 、 信 息 完 整 性 、 合 法 使 用 者 等 有 关内 容 。 数 字 水 印 是 
一 种 特定 的 信息 ,如 所 有 者 的 名 称 、 标 志 、 签 名 等 ,数字 水 印 如 同 纸币 上 的 水 印 ,传统 的 水 
印 用 来 证 明 纸 币 上 内 容 的 合法 性 , 同 理 数字 水 印 用 以 证 明 数 字 产 品 的 拥有 权 、 真 实 性 , 它 
是 分 辨 数字 产品 真 伪 的 一 种 手段 , 它 隐藏 在 数字 化 产品 中 ,人 眼看 不 见 , 人 耳 听 不 着 ,只 
有 通过 数据 处 理 才 可 识别 。 数 字 水 印 与 隐 写 术 不 同 之 处 在 于 数字 水 印 中 的 载体 信息 是 
被 保护 的 信息 , 它 可 以 是 任何 一 种 数字 媒体 ,如 数字 图 像 声 音 、 视 频 或 电子 文档 ,数字 水 
印 一 般 需 要 具有 较 强 的 鲁 棒 性 。 数 字 水 印 在 近年 来 信息 隐藏 的 研究 中 占据 主要 的 位 置 。 
下 面 将 分 别 介绍 这 两 种 技术 。 


6.3.1 文本 隐 写 技术 


与 图 像 , 视 频 、 音 频 等 多 媒体 中 的 隐 写 方法 相 比 ,文本 中 的 元 余 信息 非常 有 限 ,所 以 
文本 隐 写 所 用 的 方法 与 其 他 几 类 载体 中 使 用 的 隐 写 方法 往往 截然 不 同 。 目 前 ,关于 文本 
隐 写 方面 的 研究 主要 是 J.T. Brassil, N. F. Maxemchuk,S. Low 等 提出 的 格式 文本 中 基 
于 调整 行距 、. 字 间距 .字符 特征 等 来 做 入 隐藏 信息 的 方法 ;M.J. Atallah 等 提出 的 基于 同 
义 词 替换 的 嵌入 隐藏 信息 的 方法 及 基于 句法 和 语义 的 嵌入 隐藏 信息 的 方法 等 。 

目前 文本 隐 写 算法 虽然 层出不穷 ,但 是 基本 上 可 以 归结 为 以 下 几 类 。 


1. 基于 格式 的 文本 隐 写 技术 


由 于 文本 的 元 余 度 比 图 像 和 音频 的 元 余 度 要 低 得 多 ,因此 早期 的 文本 隐藏 算 法 设计 
通常 是 通过 改变 原 有 文本 的 格式 特征 来 达到 隐藏 目的 。 这 类 隐藏 算法 可 以 分 为 两 类 : 变 
化 间距 隐藏 算法 、 变 化 字体 隐藏 算法 。 前 者 通过 改变 词汇 与 词汇 之 间 的 距离 , 行 与 行 之 
间 的 间距 ,甚至 段 与 段 的 间距 达到 隐藏 目的 。 例 如 要 隐藏 1 可 以 将 行 与 行 的 间距 轻微 地 
上 移 , 要 隐藏 0 则 将 行 与 行 的 间距 轻微 地 下 移 来 表示 。 当 然 , 也 可 以 综合 用 词汇 ` 行 和 段 
的 间距 来 隐藏 信息 。 后 者 是 通过 改变 字体 的 类 型 .标点 的 类 型 甚至 字母 的 类 型 来 达到 隐 
藏 信息 的 ,例如 “I am from Beijing”, 如 果 想 隐藏 1001 则 可 以 将 第 2、3 个 词汇 的 首 字母 改 
为 斜体 即 可 , “I am from Beijing", 

1) 行 间距 编码 

行 间距 编码 就 是 在 文本 的 每 一 页 中 ,每 间隔 一 行 轮流 地 嵌入 秘密 信息 ,但 嵌入 信息 
的 行 的 相 邻 两 行 位 置 不 动 ,作为 参考 , 需 嵌 入 信息 的 行 根据 密 文 数据 的 比特 流 进行 轻微 
的 上 移 和 下 移 。 该 编码 技术 具有 很 强 的 稳健 性 ,即使 经 过 多 次 复制 ,或 者 页 面 按 某 个 伸 
缩 因子 进行 多 次 缩放 ,嵌入 的 秘密 信息 也 可 检测 出 来 。 

2) 字 间 距 编 码 

通过 将 文本 某 一 行 中 的 一 个 单词 进行 水 平移 位 来 嵌入 秘密 信息 。 此 种 方法 与 行 间 
距 码 隐藏 信息 的 原理 大 致 相当 ,都 是 通过 移动 间距 来 实现 。 相 对 而 言 , 字 间距 编码 能 够 
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隐藏 更 多 信息 ,但 抗 攻 击 能 力 较 行 间距 编码 要 弱 。 

3) 特征 编码 

通过 改变 文档 中 某 个 字母 的 某 一 特殊 特征 来 嵌入 标记 。 特 征 可 以 是 字体 ,也 可 以 是 
b.d h,k 等 字 中 的 垂直 线 , 可 稍微 修改 其 长 度 以 使 一 般 人 不 易 发 觉 。 相 对 某 种 给 定 字体 
可 以 改变 其 字符 高 度 ,如 标点 信息 隐藏 方法 就 是 利用 中 文 与 英文 的 标点 输入 所 占用 字符 
宽度 的 区 别 来 进行 信息 隐藏 的 。 字 体 信息 隐藏 方法 是 可 以 利用 两 种 相似 的 字体 ,修改 文 
本 中 一 些 文字 的 字体 信息 来 隐藏 秘密 消息 ,这 些 字体 被 修改 后 很 难 被 察觉 。 在 不 同 的 字 
体 类 型 中 ,有 许多 字体 是 非常 相似 的 ,如 中 文 的 宋体 与 新 宋体 之 间 , 楷 体 与 仿宋 等 ,英文 
中 的 MingLiu, Times New Roman 与 Times 等 都 是 很 相似 的 ,它们 在 视觉 上 很 难 分 辨 出 
来 ,尤其 是 字符 尺寸 比较 小 的 时 候 更 是 难以 区 分 。 如 果 这 些 外 形 相 似 的 不 同 字 体 代 表 不 
同 编码 的 话 ,就 可 以 用 来 进行 信息 隐藏 。 格 式 化 文本 中 ,字符 可 以 有 不 同 的 颜色 。 由 于 
颜色 用 RGB 表示 ,每 个 色 阶 用 8 位 共 256 个 级 别 表示 ,因而 颜色 总 数 可 以 有 1600 多 万 
种 。 而 人 眼 能 有 效 区 分 的 颜色 要 远 远 小 于 这 个 数字 ,因而 多 种 相近 的 颜色 人 眼 根本 无 法 
区 分 。 当 人 了 眼 对 文本 的 颜色 的 细微 区 别 难以 感知 时 ,文本 正常 显示 与 使 用 并 不 产生 任何 
影响 。 如 果 不 同 的 颜色 代表 不 同 的 编码 ,那么 就 可 以 根据 秘密 消息 比特 序列 来 改变 文本 
的 颜色 ,从 而 把 秘密 消息 隐藏 到 文本 的 颜色 当中 。 此 外 ,通过 颜色 来 隐藏 还 有 一 些 方式 ， 
如 把 字符 颜色 设置 成 背景 颜色 等 。 格 式 化 文本 中 ,字符 尺寸 同样 可 以 用 来 隐藏 消息 。 当 
字符 尺寸 作 微小 的 调整 时 ,人 的 感知 系统 就 难以 感知 。 如 果 字 符 尺 寸 的 不 同调 整 方式 与 
幅度 代表 不 同 的 编码 ,那么 就 可 以 把 秘密 消息 隐藏 在 字符 的 尺寸 当中 。 格 式 化 文本 本 身 
具有 丰富 的 字符 特征 ,还 可 以 利用 字符 的 加 粗 、 倾 斜 . 下划线. 边框. 底 纹 等 特征 来 隐藏 
信息 。 

4) 行 尾 附 加 空格 编码 

行 尾 附加 空格 编码 方法 是 在 每 一 行 的 行 尾 插入 空格 。 每 行 后 最 多 有 几 个 空格 是 事 
先 约定 好 的 。 如 每 行 后 最 多 有 2 个 空格 ,编码 为 1 位 ,4 个 空格 为 2 位 ,8 个 空格 为 3 位 ， 
这 种 方法 的 好 处 在 于 几乎 对 所 有 的 文本 格式 均 可 进行 隐藏 信息 的 加 载 ,而 且 不 易 觉 察 。 
但 是 这 中 间 也 存在 着 许多 缺点 ,比如 通常 使 用 的 服务 器 端 软 件 会 提前 自动 删除 文本 中 的 
一 些 多 余 空格 ;在 对 这 样 的 文件 进行 复制 时 不 会 保留 所 加 入 的 隐藏 信息 数据 。 


2. 基于 语义 的 文本 隐藏 方法 


基于 请 义 的 文本 隐藏 算法 的 基本 原理 是 ,将 一 段 正常 的 语言 文字 修改 为 另 一 段 正常 
的 语言 文字 的 过 程 中 将 秘密 信息 隐藏 进去 ,为 了 防止 攻击 者 发 现 ,算法 在 修改 原文 字 的 
过 程 中 使 用 了 同义词 替换 功能 ,并 在 句 型 的 选择 .标点 的 处 理 、. 语 序 重 排 和 错误 更 正 等 方 
面 做 了 许多 工作 ,使 得 含有 隐藏 信息 的 语言 文字 具有 伪 自 然 请 言 的 特征 。 例 如 ,嵌入 文 
本 是 “Meeting: 9 o'clock at my home” ,掩体 文本 是 “the auto drives fast on a slippery 
road over the hill. ”, 隐 写 文本 是 “Over the slope the car travels quickly on an ice-covered 
street, ”显然 , 当 攻 击 者 面 对 隐 写 文本 是 很 难 觉察 到 隐藏 信息 的 存在 的 。 基 于 语义 的 文 
本 信息 隐藏 算法 主要 包括 同义词 替换 方法 、 等 价 信息 替换 法 。 
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D 同义词 替换 方法 

同义词 替换 方法 是 通过 挑 出 一 些 词语 ,用 与 其 意义 十 分 相近 的 词语 进行 替换 ,从 而 
实现 秘密 消息 的 隐藏 。 一 对 同义词 ,选用 其 中 一 个 表示 0, 另 一 个 表示 1。 通 信 双 方 必须 
同时 拥有 同义词 表 , 隐 藏 信息 的 容量 与 同义词 表 的 大 小 有 关 。 例 如 用 big 替换 large. 人 
们 认为 词 big 是 主要 词汇 ,large 是 次 要 词汇 。 由 此 把 文本 中 这 些 特定 的 单词 挑选 出 来 构 
成 一 个 同义词 组 替换 表 。 需 替换 的 单词 表示 0, 无 须 替换 的 单词 表示 1。 在 使 用 这 些 词 
时 ,读者 无 法 适当 地 认定 它们 是 主要 词汇 还 是 次 要 词汇 。 但 是 , 当 解 码 时 ,主要 词汇 将 作 
为 1 读 出 ,而 次 要 词汇 将 作为 0 读 出 。 这 样 就 可 以 在 文本 中 隐藏 秘密 数据 。 该 算法 可 用 
于 英文 或 汉语 的 纯 文本 中 。 

2) 等 价 信 息 蔡 换 法 

等 价 信息 替换 法 跟 同义词 蔡 换 相 似 , 是 用 其 他 同等 属性 .具有 等 价 信息 量 的 词汇 ( 短 
语 ) 来 替换 文本 中 的 词汇 (短语 ) 。 与 同义词 替换 中 的 同义词 库 类 似 ,等 价 信息 替换 中 的 
等 价 信息 主要 来 源 于 一 个 预先 建立 的 事实 数据 库 , 库 中 的 信息 事先 经 过 编码 ,隐藏 时 , 根 
据 秘密 信息 来 选择 相应 的 词汇 做 替换 。 


3. 基于 语法 的 文本 隐 写 技术 


基于 请 法 的 文本 信息 隐藏 方法 是 通过 改变 句子 结构 而 不 显著 改变 句子 意思 和 请 气 
来 达到 隐藏 目的 。 这 类 方法 包括 句子 分 拆 和 组 合 、 主 体 语 前 置 、 宾 语 前 置 、. 主 语 后 置 、 移 
动 附加 语 位 置 .加 入 删除 形式 主语 .代词 替换 、 主 动 被 动 语 态 变换 .加 入 删除 元 余 短语 等 。 
这 类 方法 的 隐蔽 性 较 好 ,但 是 受到 文本 写作 风格 和 内 容 的 影响 ,在 达到 较 好 自然 度 的 同 
时 隐藏 容量 受到 限制 ,其 典型 方法 有 生成 文本 法 。 

生成 文本 法 不 利用 载体 文本 ,而 是 根据 秘密 信息 直接 生成 隐秘 文本 ,隐秘 文本 单纯 
为 了 传递 秘密 消息 而 生 。 生 成 文本 法 的 好 坏 与 字典 构造 模型 及 模板 的 准确 程度 有 关 ， 
它 需 要 一 个 字典 库 , 即 生成 文本 的 “ 源 ”, 因 而 也 称 为 “字典 法 ”或 者 “构造 法 ”。 


6. 3.2 文本 数字 水 印 技术 


1. 文本 数字 水 印 的 概念 


文本 数字 水 印 技术 能 提供 一 种 追踪 文本 被 非法 复制 ,发 行 或 伪造 的 方法 。 若 文本 数 
字 水 印 技术 能 解决 版 权 问题 ,传媒 业 中 几乎 所 有 的 报刊 ,杂志 .书籍 文件 等 均 可 通过 网 
络 传播 ,可 节省 大 量 人 力 、 物 力 和 时 间 , 降 低 成 本 。 另 外 ,大 力 推行 的 电子 政务 方面 ,也 有 
大 量 文 件 在 网 上 流动 ,如 果 这 类 文件 被 自 改 ,将 会 产生 严重 的 后 果 。 

文本 水 印 是 用 一 种 无 法 感知 的 方法 来 标记 文档 ,并 以 此 来 登记 非法 分 发 文档 的 所 有 
者 。 如 果 发 现 有 非法 分 发 的 嫌疑 , 则 可 以 通过 检测 水 印 的 方法 找 出 文档 所 有 者 , 它 可 以 
很 好 地 解决 类 似 问 题 。 

文本 文件 没有 太 多 的 元 余 信 息 , 且 在 文本 文件 中 嵌入 信息 极 易 被 阅读 者 发 现 ,同时 
一 些 字 处 理 软件 在 有 意 无 意 间 也 会 破坏 原始 文件 ,因而 在 其 中 嵌入 数字 水 印 比 较 困 难 。 
同时 由 于 文本 自身 的 一 些 特点 ,目前 用 于 图 像 .视频 方面 的 水 印 嵌 入 方法 大 部 分 不 适用 
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于 文档 的 结构 和 特性 ,因而 研究 文本 水 印 技术 已 是 迫在眉睫 。 
2. 文本 数字 水 印 的 载体 类 型 


用 于 信息 隐藏 的 文本 载体 主要 分 以 下 几 种 类 型 : 

1) 非 图 像 格式 的 电子 文本 

包括 不 具备 排版 格式 的 纯 文 本 (如 ASCII 文 件 .TXT 文件 、 源 程序 文件 等 ) 和 其 他 具 
有 一 定 排 版 格式 的 文件 (如 PDF, RTF, Word, HTML, E-mail 等 ) 。 

2) 文本 图 像 

包含 文本 内 容 的 灰 度 图 像 或 二 值 图 像 。 常 见 的 是 二 值 文本 图 像 , 其 中 的 内 容 未 经 文 
字 和 排版 识别 ,如 传真 .乐谱 等 。 

3) 纸 质 文本 

从 文本 信息 隐藏 角度 来 看 ,这 类 载体 若 要 实现 自动 提取 ,需要 先 对 其 进行 数字 化 、 文 
字 和 排版 识别 等 步骤 。 


3. 文本 数字 水 印 的 应 用 


文本 数字 水 印 技术 的 应 用 是 广泛 的 ,从 广义 上 讲 , 凡 是 有 文字 存在 的 地 方 , 都 是 文本 
数字 水 印 技术 可 能 的 应 用 场合 。 其 可 能 的 应 用 领域 如 下 : 

1) 数字 文本 文件 的 网 络 发 行 

互联 网 上 存在 大 量 需要 版 权 保护 的 数字 文本 文件 (包括 文章 、 杂 志 等 ), 向 这 些 数 字 
文件 中 嵌入 文本 数字 水 印 以 宣示 文件 的 版 权 信 息 , 并 作为 打击 盗版 行为 的 证 据 , 是 一 种 
促进 数字 文本 文件 网 络 发 行 的 有 力 手 段 。 目 前 ,很 多 数字 图 书馆 (CNKI、VIP 等 ) .文学 
作品 专业 网 站 (如 起 点 等 ) 均 采用 了 数字 水 印 技术 。 

2) 数字 证 件 、 合 同 的 防伪 (内 容 认证 ) 

结合 数据 加 密 技 术 ,将 载体 文本 的 内 容 认证 信息 (签名 信息 ) 作 为 文本 数字 水 印 嵌 入 
到 载体 文本 文件 中 ,从 而 形成 有 防 自 改 功能 的 各 种 证 件 、 合 同 , 与 其 他 防伪 手段 相 比 , 文 
本 数字 水 印 技术 有 着 成 本 小 、 使 用 方便 以 及 不 影响 证 书 、 合 同 外 观 质量 等 特点 。 

3) 重要 文件 的 安全 审计 

安全 审计 属于 操作 跟踪 范畴 ,在 很 多 应 用 中 ,需要 对 涉及 国家 秘密 信息 .商业 秘密 信 
息 的 文件 进行 非常 细致 的 安全 防范 管理 。 这 些 数 字 文本 文件 在 传输 、 使 用 .输出 过 程 的 
操作 人 员 时间 存储 设备 .输出 设备 等 安全 审计 信息 需要 被 详细 地 记录 ,而 将 这 些 信 息 
作为 文本 数字 水 印 戏 入 到 原文 件 中 ,可 以 极 大 地 方便 使 用 过 程 的 管理 与 事后 的 审计 。 

此 外 ,在 隐蔽 通信 ,文件 注释 、 数 据 库 安全 、 拷 贝 控制 ,交易 跟踪 等 领域 ,文本 数字 水 
印 技术 也 有 众多 可 能 的 应 用 。 


4. 文本 水 印 的 常见 算法 


文本 数字 水 印 是 数字 水 印 的 一 种 ,是 以 文本 为 原始 载体 的 数字 水 印 技术 。 其 设计 思 
想 和 图 像 数 字 水 印 相 似 : 除了 文本 的 作者 或 者 版 权 拥 有 者 ,其 他 任何 人 都 不 能 从 中 检测 
出 水 印信 息 。 但 是 ,在 文本 中 加 入 水 印信 息 更 加 困难 ,原因 在 于 和 图 像 .声音 中 存在 的 噪 
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声 数 据 不 同 ,文本 中 并 不 包含 用 于 秘密 信息 传递 的 元 余 信 息 。 

文本 水 印 研究 早期 的 研究 是 在 文档 图 像 (document image) 中 嵌入 水 印 , 采 用 的 方法 
和 图 像 水 印 类 似 , 或 者 利用 结构 化 文档 各 自 格式 上 的 特点 嵌入 水 印 , 如 基于 Word, PDF, 
PostScript, HTML,XML 等 有 关 的 行 移 编码 . 字 移 编码 、 特 征 编码 .存储 物理 和 逻辑 结 
构 、 标 记 变换 等 。 以 上 方法 只 考虑 保留 文本 的 视觉 形式 而 不 考虑 其 具体 内 容 , 通 用 性 较 
好 ,隐藏 容量 较 大 ,但 是 安全 性 较 差 ,不 能 抵御 常规 的 OCR (Optical Character 
Recognition, 光 学 字符 识别 ) 和 格式 变换 的 攻击 ,而 且 不 能 适用 于 纯 文本 ,应 用 上 也 有 很 
大 的 限制 。 

长 期 以 来 ,由 于 纯 文本 中 没有 数据 元 余 , 没 有 可 供 插 入 标记 的 可 感知 空间 ,有 学 者 认 
为 文本 是 不 能 被 插入 水 印 的 。 为 了 向 纯 文 本 中 嵌入 水 印 ,一 些 学 者 试图 采用 插入 拼写 字 
T) . 词 的 变换 .标点 符号 ,甚至 一 些 错误 的 内 容 等 方法 来 实现 这 个 目的 。 一 般 认 为 ,美国 
普 渡 大 学 Mikhail J. Atallah 等 于 2000 年 最 先 提出 了 自然 语言 文本 水 印 的 概念 。 其 实 早 
在 1996 年 ,Bender 等 就 提出 了 利用 句法 和 语义 变换 对 文本 进行 信息 隐藏 ,可 以 说 是 自然 
语言 文本 水 印 有 关 的 最 早 研究 之 一 。 

1) 基于 文档 结构 微调 的 文本 水 印 

(1) 行 移 编码 文本 数字 水 印 

文本 中 存在 行 间距 , 行 移 编码 就 是 利用 文本 的 行 间距 携带 水 印信 息 的 一 种 方法 。 一 
般 在 文本 中 将 某 一 整 行 垂直 移动 来 嵌入 水 印信 息 ,而 其 相 邻 的 上 下 两 行 位 置 不 动 , 作 为 
提取 水 印 时 的 参照 行 ,嵌入 水 印信 息 的 行 根据 水 印 数据 的 比特 流 进 行 轻微 的 上 移 或 者 下 
移 。 根 据 经 验 发 现 ,人 眼 对 1/300 英寸 的 垂直 位 移 量 不 敏感 ,嵌入 水 印 后 的 文本 变化 人 
眼 是 无 法 辨认 的 。 

如 果 一 个 文本 文件 最 初 的 行 间 距 是 均匀 的 ,那么 提取 水 印 时 可 以 通过 分 析 行 间距 来 
进行 水 印 提取 ,不 需要 原始 文本 作为 参考 ,可 以 实现 讶 提取。 行 移 编码 水 印 算法 具有 较 
强 的 鲁 棒 性 ,能 够 抵抗 一 定 程度 的 拷贝 ,缩放 攻击 ,适用 于 保护 打印 文档 ,但 是 该 算法 水 
印 容量 较 小 。 

(2) 字 移 编码 文本 数字 水 印 

字 移 编码 方法 是 将 文本 行 中 的 单词 在 水 平 位 置 上 左 移 或 者 右 移 来 嵌入 水 印信 息 , 而 
其 相 邻 的 单词 不 动 , 作 为 提取 水 印 时 的 参考 位 置 。 根 据 经 验 发 现 ,人 眼 对 1/150 英寸 的 
水 平 位移 不 敏感 。 通 常 格 式 化 的 文本 使 用 变化 的 字 间 距 增 强 文本 的 可 读 性 和 美观 感 , 故 
利用 字 移 编码 方式 嵌入 水 印信 息 具有 更 好 的 隐蔽 性 。 由 于 最 初 文档 中 单词 的 间距 就 不 
均匀 ,因此 提取 水 印 时 需要 参考 原始 文档 中 的 字 间 距 。 调 整 单词 间距 使 不 同行 的 平均 字 
间距 表现 出 正弦 曲线 的 规律 ,从 而 将 水 印信 息 编码 到 正弦 曲线 中 ,增强 了 和 鲁 棒 性 ,也 实现 
了 盲 检测 ,但 是 水 印 容量 不 高 。 后 来 ,提出 利用 不 同 正弦 曲线 的 正 交 特性 提高 了 水 印 容 
量 。 此 外 提出 了 基于 统计 的 字 间 距 编码 方法 ,借助 将 相 邻 的 单词 分 组 的 思想 ,在 文档 中 
重复 嵌入 相同 的 水 印信 息 ,该 方法 具有 更 强 的 鲁 棱 性 ,但 水 印 容量 降低 。 利 用 字母 间距 
和 词 间 距 的 改进 算法 ,增加 了 水 印 容 量 ,但 对 于 文件 拷贝 打印 和 扫描 攻击 的 鲁 棱 性 
较 差 。 

字 移 编码 较 行 移 编 码 具 有 更 高 的 水 印 容量 ,但 是 目前 已 有 的 字 移 编码 方法 在 水 印 提 
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取 时 需要 参考 原始 文档 ,不 能 实现 盲 提取 。 

(3) 特征 编码 文本 数字 水 印 

特征 编码 通过 改变 单词 字母 的 特征 来 嵌入 水 印 。 例 如 字体 、 字 号 、 颜 色 、 下 划 线 、 笔 
划 的 宽度 、 高 度 、 方 向 .区域 的 亮度 等 。 此 类 方法 适用 于 格式 化 文档 和 文本 图 像 文档 。 基 
于 无 法 识别 而 扫描 仪 能 够 区 分 字符 亮度 的 事实 ,提出 基于 字符 亮度 调整 的 方法 嵌入 水 
印 。 依 据 字 符 仅 有 微小 差异 的 新 字符 来 替换 原 字 符 的 思想 ,提出 在 波斯 /阿拉 伯 文 中 隐 
藏 水 印 的 方法 和 修改 字符 的 笔画 宽度 来 嵌入 水 印 的 方法 。 基 于 字符 拓扑 结构 的 文本 水 
印 算法 ,利用 人 类 对 语言 符号 的 “模糊 ”心理 认 知 模型 和 生理 视觉 模型 ,通过 适当 改变 字 
符 的 拓扑 结构 ,设计 出 语义 上 相同 的 字符 的 多 种 字形 ,用 字符 字形 映射 的 不 同 数学 模型 
代表 隐藏 信息 ,特征 编码 的 水 印 容量 很 大 ,但 是 水 印 提 取 有 时 候 需 要 参考 原始 文档 。 

2) 基于 文本 内 容 的 方法 

基于 文本 内 容 的 方法 源 于 信息 隐藏 技术 。 它 将 一 个 载体 文本 看 成 一 系列 的 意义 序 
列 而 非 文本 图 像 , 嵌 入 过 程 就 是 将 载体 文本 转换 成 具有 相同 或 相近 意义 的 隐秘 文本 的 
过 程 。 

CD 同义词 替换 技术 

利用 语言 的 同义词 特性 ,将 一 组 同义词 编 为 不 同 的 隐藏 代码 ,在 文本 中 根据 水 印信 
息 将 原 有 的 词汇 进行 恰当 的 同义词 奉 换 ,使 得 这 些 同义词 对 应 的 隐藏 编码 与 水 印信 息 匹 
配 ,就 实现 了 文本 水 印 的 柑 和 人 。 检 测 时 不 需要 原始 文本 信息 ,查询 约定 的 同义词 对 应 的 
隐藏 编码 得 到 了 水 印信 息 。 

这 种 方法 的 优点 是 文本 水 印 与 载体 文本 能 非常 紧密 地 结合 在 一 起 ,水 印 的 鲁 棒 性 、 
抗 攻击 性 能 好 ,水 印 不 产生 视觉 影响 ,但 由 于 难以 为 所 有 的 词汇 找到 恰当 的 同义词 ,造成 
文本 可 嵌入 水 印信 息 的 容量 相当 有 限 。 

(2) 基于 句法 的 文本 数字 水 印 算法 

在 自然 语言 中 有 很 多 语义 上 等 价 的 句法 ,如 主动 句 与 被 动 句 、 顺 序 句 与 倒 装 句 等 ,本 
方法 通过 修改 句子 的 不 同 句法 来 插入 数字 水 印 。 通 过 将 预先 设 定 的 句法 映射 为 隐藏 编 
码 , 嵌 入 水 印 时 ,首先 分 析 句 子 的 句法 ,然后 恰当 调整 句子 的 结构 ,使 得 调整 后 句子 句法 
映射 的 隐藏 编码 与 要 嵌入 的 水 印信 息 匹 配 。 检 测 方法 可 以 是 明文 检测 ,也 可 以 是 盲 
检测 。 

本 方法 的 特点 为 : 文本 水 印 的 鲁 棒 性 、 抗 攻击 性 能 好 ,水 印 不 产生 任何 视觉 影响 ,但 
水 印 的 容量 有 限 。 同 时 ,由 于 当前 自动 分 析 句 法 的 计算 机 技术 并 不 成 熟 ,造成 嵌入 水 印 
的 技术 相对 困难 ,而 且 很 多 情况 下 会 引起 语义 的 变化 。 

(3) 基于 语义 的 文本 数字 水 印 算法 

该 方法 利用 语义 学 原理 ,将 文本 描述 为 文本 语义 表达 (Text Meaning Representation, 
TMR) 树 ,并 将 TMR 树 的 不 同 结构 分 别 对 应 不 同 的 隐藏 编码 。 嵌 入 水 印 时 ,通过 嫁接 、 剪 
枝 、 等 价 信息 替换 的 方法 修改 TMR 树 , 同 时 也 对 应 修改 原 载体 文本 。 在 外 在 表现 形式 
上 ,也 涉及 同义词 替换 与 句法 变换 ,不 同 点 主要 在 于 隐藏 信息 的 编码 方法 ,同时 ,本 方法 
可 以 通过 添加 元 余 信 息 的 方式 改变 原文 本 。 

这 种 方法 鲁 棒 性 好 ,与 内 容 紧密 联系 ,但 水 印 容 量 小 ,自动 嵌入 水 印 后 可 能 引起 语义 
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改变 ,从 而 降低 原 载体 文本 的 阅读 质量 。 

3) 基于 不 可 见 编码 的 方法 

在 主要 的 字符 编码 标准 中 (GB 2312, Unicode 等 ) ,存在 着 多 个 编码 对 应 的 字符 是 不 
可 见 的 情况 ,如 ASCII 编码 的 32 和 127, Unicode 码 默认 定义 的 OOAOh, 此 外 还 可 以 将 
Unicode 标准 自 定 义 区 的 编码 定义 为 空格 ,水 印 的 嵌入 可 以 利用 编码 的 元 余 性 和 不 可 见 
性 来 进行 。 典 型 的 方法 有 蔡 换 法 与 追加 法 。 

(1) 替换 法 的 原理 是 将 多 个 不 可 见 编码 分 别 对 应 不 同 的 隐藏 信息 编码 ,在 文本 中 对 
已 有 的 不 可 见 码 进行 替换 ,使 得 替换 后 的 不 可 见 码 对 应 的 隐藏 信息 编码 匹配 水 印信 息 。 
这 种 方法 多 用 于 英文 这 样 的 语言 中 ,这 些 语言 的 文本 中 单词 与 单词 之 间 存 在 自然 的 空 
格 , 因 而 嵌入 的 水 印 容量 大 ,分 布 也 较为 均匀 ,但 不 适合 中 文 文本 ,中 文 文本 中 字 与 字 之 
间 没 有 空格 。 

(2) 追加 法 的 原理 是 在 文本 的 空白 区 追加 不 可 见 的 代码 ,水 印 的 嵌入 、 检 测 方法 可 以 
直接 依据 空白 区 的 空格 有 无 .数量 以 及 不 可 见 编码 的 类 型 来 确定 。 常 见 的 方式 是 在 文本 
段落 的 末尾 空白 处 添加 各 种 不 可 见 编码 ,通过 与 原文 的 对 比 来 确定 是 否 嵌入 了 水 印 , 及 
根据 不 可 见 编码 的 数量 与 状态 来 确定 嵌入 的 隐藏 信息 。 用 这 种 方法 嵌入 的 水 印 容 量 较 
大 ,适合 所 有 语言 的 文本 。 缺 点 是 水 印信 息 分 布 不 均匀 ,而 且 水 印信 息 极 易 被 恶意 攻击 
者 去 除 。 

4) 基于 图 像 水 印 技术 的 算法 

基于 图 像 文本 数字 水 印 是 将 文本 转换 为 图 像 的 形式 (如 二 值 图 像 ) 进 行 保存 ,然后 利 
用 加 性 和 乘 性 、 位 平面 统计 特征 替换、 量化 .关系 等 空域 水 印 算法 ,以 及 基于 离散 余弦 
变换 域 (Discrete Cosine Transform,DCT)、 小 波 变换 域 (Discrete Wavelet Transform. 
DWT) 等 变换 域 数字 水 印 算法 进行 水 印 的 嵌入 。 

这 类 文本 水 印 从 本 质 上 属于 图 像 水 印 , 其 优 缺 点 由 不 同 的 图 像 水 印 技术 确定 。 总 体 
上 ,这 类 文本 水 印 的 最 突出 的 问题 是 载体 文本 文件 的 访问 方式 需要 用 图 像 处 理 软件 进 
行 ,这 与 文本 通常 是 通过 字 处 理 软件 进行 访问 的 方式 不 一 致 。 

基于 图 像 分 块 的 数字 文本 水 印 算法 ,将 文本 当 作 一 种 特殊 的 二 值 图 像 即 黑白 像素 ， 
通过 图 像 分 块 ,在 每 一 块 中 嵌入 一 定量 的 水 印信 息 , 算 法 需要 考虑 传统 的 二 值 图 像 水 印 
算法 和 文本 图 像 的 特殊 性 。 主 要 思想 是 通过 控制 “可 翻转 ”的 像素 并 利用 * 置 乱 ” 操 作 髓 
入 大 量 水 印信 息 ,水 印 的 提取 不 需要 原始 图 像 的 参与 ,可 用 于 内 容 认 证 和 算 改 提示 。 

5) 基于 特殊 格式 文件 的 文本 水 印 算法 

(1) HTML 网 页 文件 中 的 水 印 谋 入 算法 

从 广义 上 讲 ,HTML(Hypertext Markup Languge, 超 文本 标记 语言 ) 网 页 也 是 一 种 
文本 ,而 且 它 是 互联 网 上 最 为 流行 的 文件 格式 。 它 有 着 与 普通 文本 文件 不 同 的 特点 , 利 
用 这 些 特点 可 以 嵌入 文本 水 印 。 例 如 ,HTML 文本 中 存在 特殊 的 标记 符号 ,只 有 恰当 的 
标记 包含 的 数据 才能 被 浏览 器 显示 ,这样 在 正确 的 标记 对 之 间 插 入 的 隐藏 信息 会 被 浏览 
器 忽略 ,从 而 不 会 被 显示 出 来 。 

这 种 方法 的 优势 是 隐藏 信息 量 大 :而 且 不 会 给 用 户 带 来 任何 视觉 上 的 影响 ,但 与 此 
同时 ,恶意 攻击 者 可 以 直接 用 文本 编辑 器 打开 网 页 查找 与 修改 信息 ,水 印 的 抗 攻击 性 能 
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很 弱 。 

(2) 基于 XML 文档 的 文本 水 印 

XML(Extensible Markup Language, 可 扩展 标记 语言 ) 文 档 是 一 种 广泛 用 于 Web 的 
结构 化 文档 ,文档 本 身 只 有 最 基本 的 逻辑 结构 ,物理 结构 ( 即 显 示 内 容 ) 可 根据 需要 添加 。 
其 中 的 文本 (text) 与 标志 (tags) 一 起 标识 着 文档 的 内 容 , 称 为 XML 文档 ; 而 表达 其 逻辑 
结构 的 基本 元 素 (elements) 和 属性 (attributes) 则 可 由 DTD(Document Type Defintion) 
定义 。 

基于 XML 文档 的 文本 数字 水 印 ,就 是 指 在 保持 DTD 的 约定 及 文档 的 应 用 能 力 不 变 
的 情况 下 ,通过 改变 XML 文档 的 逻辑 结构 来 嵌入 秘密 信息 。 这 一 思想 是 由 日 本 的 
Shingo Inoue, KyokoMak ino 等 提出 的 。 图 6-5 给 出 了 这 一 思想 的 基本 模型 。 


DTD 处 理 
DTD i 
m| XML ggr 
变换 文档 ( 密 文 ) 
XML 文档 (明文 ) " ex 
提 
入 - 一 | 水 印 数据 
AIA SOKE XML 取 [水 印 数据 ] 
文档 
Eq 
密 钥 密 铀 


图 6-5 基于 XML 文档 的 文本 水 印 


在 XML 的 应 用 中 ,意义 相同 而 逻辑 结构 不 同 的 文档 常常 会 一 起 处 理 。 此 时 只 要 定 
义 灵活 的 DTD, 就 允许 不 同 逻 辑 结 构 的 文档 存在 了 。 如 果 相同 的 处 理 结果 能 够 来 自 于 
FUR EDEA XML 文档 ,那么 就 可 隐藏 数字 水 印 于 XML 文档 之 中 。 

改变 XML 文档 逻辑 结构 的 方式 有 多 种 : 四 变更 同名 元 素 的 顺序 。@@ 置 换 不 同 元 素 
的 顺序 。@ 使 用 同 义 的 元 素 。@ 使 用 包含 其 他 元 素 的 元 素 。 回 使 用 无 意义 的 空 元 素 。 
下 面 以 第 一 种 方式 为 例 , 详 细 说 明基 于 XML 文档 的 文本 数字 水 印 。 

在 XML 文档 中 , 当 同 名 元 素 重复 出 现时 ,通过 变更 这 些 元 素 的 顺序 可 嵌入 水 印 。 不 
管 这 些 元 素 以 何 种 次 序 书写 ,在 大 多 数 XML 应 用 中 它们 都 能 被 识别 为 相同 意义 。 

在 下 面 的 示例 中 ,元 素 的 字母 等 级 由 其 内 容 确定 。 于 是 可 由 元 素 的 等 级 和 嵌入 水 印 
的 密 钥 来 改变 两 个 元 素 的 顺序 ,从 而 嵌入 水 印 。 

例 6-1 

Stego- key GR zs BA IE) 

Rank high rank low 0 

Rank low rank high 1 

Stego- text 

«last name» smith« /last name» 

ait iu fra [last nee 

ro — S 

«last ram» Woods< /last name> 
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Enbedded data 


用 这 种 方法 加 入 的 水 印 不 可 见 性 好 ,不 容易 去 掉 , 鲁 棒 性 较 强 。 但 其 局 限 性 也 是 显 
而 易 见 的 , 即 它 受 限于 特定 的 文档 结构 , 且 嵌 入 水 印 的 容量 很 有 限 。 

(3) PDF 等 文件 格式 中 的 水 印 技术 

PDF .CAJ 等 格式 文件 自身 有 固定 的 格式 定义 ,并 与 操作 系统 无 关 , 不 需要 操作 系统 
提供 字体 文件 来 显示 字符 的 字形 。 在 这 类 文件 中 嵌入 水 印 的 算法 并 无 任何 特别 之 处 ,可 
采用 前 述 的 各 种 方法 。 

由 于 文本 水 印 的 嵌入 、 检 测 实现 方法 有 其 自身 的 特点 ,从 而 造成 了 不 同 格式 中 的 文 
本 水 印 有 不 同 特点 。 例 如 ,由 于 PDF 文件 可 与 PS 文件 互相 转换 ,而 PS 文件 是 
Postscript 语言 编写 的 结构 化 页 面 描述 程序 ,移动 字符 ( 行 ) 间 距 、 修 改 字符 特征 .嵌入 不 
可 见 编码 等 几乎 本 节 所 有 的 嵌入 水 印 的 方式 都 可 以 以 程序 的 方式 进行 自动 加 载 ,而 且 对 
字符 特征 信息 的 获取 可 以 直接 从 PS 文件 中 进行 读 取 , 从 而 实现 高 效 且 精 确 的 水 印信 息 
检测 。 这 种 情况 下 ,利用 基于 行 移 . 字 移 的 方法 进行 水 印 嵌入 ,可 以 使 得 移动 的 距离 很 小 
(等 价 于 增加 水 印 容 量 ) ,而 且 通 过 精确 地 读 取 实际 移动 的 距离 , 则 检测 结果 精确 且 高 效 。 
此 外 ,这 类 文件 在 使 用 过 程 中 不 容易 被 修改 ,文本 水 印 的 抗 攻击 能 力 较 强 。 


6.3.3 典型 的 文本 隐 写 与 水 印 方法 


汉语 中 除了 大 量 的 同义词 之 外 ,还 存在 大 量 的 同音 替换 现象 ,如 假借 、 通 假 、 异 形 词 。 
这 些 词 与 同义词 的 区 别 在 于 ,它们 在 发 音 上 、 意 义 上 完全 相同 而 只 是 书写 形式 不 同 ,而 有 
固定 的 替代 形式 。 因 此 没有 同义词 之 间 意 义 上 的 细微 差别 和 同义词 组 类 的 不 一 致 性 。 
利用 假借 字 、 通 假 字 、 异 形 词 之 间 的 同音 替换 可 以 进行 信息 隐藏 。 

下 面 详细 介绍 一 种 基于 同音 词 替换 的 信息 隐藏 方法 。 


1. 隐藏 原理 


(1) 汉语 发 展 过 程 中 出 现 了 大 量 的 假借 字 、 通 假 字 、 异 形 词 和 异体 字 , 其 中 很 大 一 部 
分 在 现代 汉语 很 少 使 用 或 被 规范 整理 淘汰 。 

例 6-2 利用 词 对 “机 伶 - 机 灵 ” 进 行 同音 替换 。 

原 句 为 :“ 别 看 他 现在 一 副 傻 果 呆 的 样子 ,其 实 他 机 伶 得 很 ”。 

替换 为 :“ 别 看 他 现在 一 副 傻 果 果 的 样子 ,其 实 他 机 灵 得 很 ”。 

这 种 隐藏 的 处 理 方 法 与 同义词 替换 法 相似 ,但 有 两 点 区 别 :一 是 同音 替换 词 表 中 的 
各 项 组 成 是 基本 固定 的 ,而 同义词 表 的 各 项 组 成 对 于 不 同 用 户 会 有 较 大 差异 ;二 是 对 于 
同义词 词 对 只 在 某 个 词性 下 成 立 的 情况 ,还 需要 对 同义词 进行 词性 判定 。 运 用 这 两 类 方 
法 进行 蔡 换 时 ,考虑 到 汉语 句子 的 词 之 间 没 有 分 割 标 志 , 待 车 换 的 词 与 相 邻 字 的 组 合 上 
可 能 存在 词 请 组 合 歧义 ,所 以 需 先 对 待 处 理 文本 进行 分 词 和 切 分 歧义 消除 。 

(2) 上 面 提 到 的 同音 替换 词 对 在 文本 中 出 现 的 频率 有 一 定 的 限制 , 另 一 种 较为 通用 
的 蔡 换 方式 是 采用 结构 助词 词 对 :“ 的 -地 ”和 ”的 -得 ”。 

“地 ” 作 结 构 助 词 时 用 在 状语 后 ,表示 状语 和 中 心 词 之 间 的 修饰 关系 ,与 “的 ”可 作 同 
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音 蔡 换 。 其 中 一 些 典 型 结构 形式 为 : (副词 形容词) 十 地 十 (动词 .形容词 )。 

“得 ” 作 结 构 助 词 用 在 动词 或 形容 词 后 面 ,连接 表示 程度 或 结果 的 补 语 ,或 用 在 动词 
和 补 语 中 间 表 示 可 能 时 ,与 “的 ”可 作 同 音 蔡 换 四 。 其 中 一 些 典 型 结构 形式 为 : (动词 . 形 
容 词 ) 十 得 十 (动词 .副词 .形容词 ) 。 

通过 选择 “的 -地 ”和 “的 -得 ” 词 对 中 的 前 者 或 后 者 可 分 别 垦 入 1、0 信息 。 

例 6-3 利用 词 对 “的 -地 ”进行 替换 的 例子 。 

原 句 为 :“ 淘 宝 购物 客户 中 青年 人 的 数量 将 会 更 加 快速 的 增长 ”。 

替换 为 “淘宝 购物 客户 中 青年 人 的 数量 将 会 更 加 快速 地 增长 ”。 

利用 词 对 “的 -得 ”进行 替换 的 例子 。 

原 句 为 :“ 看 到 和 爸爸 精心 准备 的 生日 礼物 ,她 禁不住 高 兴 的 跳 了 起 来 ”。 

替换 为 :“ 看 到 和 爸爸 精心 准备 的 生日 礼物 ,她 禁不住 高 兴 得 跳 了 起 来 ”。 

采用 结构 助词 词 对 “的 -地 ”和 ”的 -得 ?进行 隐藏 时 ,需要 判定 “的 地、 得 ?在 句 中 的 词 
性 及 相 邻 中 心 词 的 词性 ,只 有 符合 替换 条 件 的 才能 进行 。 每 个 符合 替换 条 件 的 结构 可 艇 
入 1 比特 信息 。 两 例句 中 第 一 个 “的 ” 字 位 于 定语 (名 词 和 名 词性 短语 ) 和 中 心 词 ( 名 词 ) 
之 间 ,不 符合 替换 条 件 , 故 不 能 用 于 隐藏 信息 ,应 保持 为 原文 状态 。 词 性 判定 可 以 人 工 完 
成 ,也 可 以 通过 自然 语言 处 理 中 的 句子 分 词 和 词性 标注 算法 来 实现 ,利用 后 者 可 以 实现 
机 器 自动 隐藏 和 盲 检测 。 


2, 信息 的 嵌入 


前 一 种 同音 替换 法 的 秘密 信息 嵌入 方法 和 6. 3. 1 节 中 的 同义词 替换 法 相同 ,不 再 复 
述 。 后 一 种 结构 助词 词 对 同音 替换 法 的 秘密 信息 自动 嵌入 可 以 按照 以 下 步骤 进行 : 

CD 将 秘密 信息 转换 成 二 进 制 码 序列 。 

@ 搜索 包含 “的 >“ 地 ?或 “得 ”的 句子 。 

C) 使 用 基于 规则 或 基于 统计 的 方法 对 该 句 进行 自动 分 词 。 若 分 词 后 “的 ”“ 地 ?或 
“得 ”与 其 他 字 一 起 组 成 词 或 “的 "“ 地 ?或 “得 ”处 于 句 首 句 尾 , 则 这 些 情 况 不 符合 替换 条 
件 , 只 需 处 理 在 分 词 后 以 单字 形式 出 现在 句 中 的 “的 “地 ”或 “得 ”。 若 不 存在 这 种 情况 ， 
则 回 到 @ 继 续 搜索 。 

CD 对 单字 形式 出 现在 句 中 的 “的 "“ 地 ?或 “得 及 它们 前 后 相 邻 的 中 心 词 进行 词性 标 
注 ,词性 标注 有 基于 规则 统计 、 机 器 学 习 、 神 经 网 络 或 混合 的 方法 。 这 一 步 并 不 需要 完 
成 句 中 所 有 词 的 词性 标注 工作 。 

© 车 词性 标注 结果 存在 符合 结构 “(副词 形容词) 十 地 或 的 十 (动词 .形容 词 )” 或 
“(动词 ,形容词 ) 十 得 或 的 十 (动词 副词 ,形容 词 )” 的 情况 , 则 该 处 可 进行 嵌入 。 和 否则 回 
SI OE SHE. 

© 先 对 原文 进行 规范 化 处 理 , 将 (副词 .形容词 ) 十 地 或 的 十 (动词 .形容词 )”“( 动 
词 、 形 容 词 ) 十 得 或 的 十 (动词 .副词 \ 形 容 词 ) ”分别 规 范 为 ”( 副 词 、 形 容 词 ) 十 地 十 (动词 、 
形容 词 )”“ (动词 .形容词 ) 十 得 十 (动词 ,副词 .形容 词 )”, 对 比 规范 化 文本 嵌入 秘密 信 
息 。 当 前 待 嵌入 的 秘密 信息 二 进 制 位 为 “0” 时 ,保持 “地 ”或 “得 ”不 变 : 为 “1” 时 将 “地 ”或 
“得 ”替换 成 “的 ”。 
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CD 转 步 又 四 继续 嵌入 秘密 信息 的 下 一 个 二 进 制 位 ,直至 秘密 信息 已 嵌入 完毕 或 原文 
已 搜索 完毕 。 

以 句子 “父亲 的 目的 很 明确 ,就 是 要 他 努力 的 学 习 ? 为 例 , 说 明 上 述 秘密 信息 嵌入 过 
程 。 该 句 的 前 后 两 段 均 包含 “的 “地 ”或 “得 ”, 故 先 对 它们 进行 分 词 和 词性 标注 ,按照 北 
大 版 汉语 词性 标记 集 的 词法 分 析 结 果 为 : 

父亲 /n 的 /u 目 的 /n 很 /d 明确 /a,/w 就 是 /d 要 /v 他 /努力 /a 的 /学 习 /v。/w 
其 中 n 表示 名 词 ,u 表示 助词 ,d 表示 副词 ,a 表示 形容 词 , w 为 标点 符号 , v 为 动词 ,r 为 
代词 。 

第 一 个 和 第 三 个 “的 ? 字 均 以 单字 形式 出 现在 句 中 ,有 待 进一步 确定 是 否 符合 替换 条 
件 ; 第 二 个 “的 ?” 字 与 其 他 字 一 起 组 成 词 , 且 出 现在 句 尾 , 故 不 符合 蔡 换 条 件 。 

下 面 来 确定 第 一 个 和 第 三 个 "的 ? 字 是 否 符合 蔡 换 条 件 。 前 者 与 其 相 邻 中 心 词 的 结 
构 为 “n 十 u 十 n”, 即 “名 词 十 助词 的 十 名 词 ”, 不 满足 蔡 换 条 件 ; 后 者 与 其 相 邻 中 心 词 的 结 
构 为 “a 十 u 十 v”, 即 “形容 词 十 助词 的 十 动词 "符合 蔡 换 条 件 。 

这 样 , 整 句 存在 一 个 符合 替换 条 件 的 结构 , 故 该 句 可 嵌入 1 比特 信息 。 先 对 原文 中 
符合 替换 条 件 的 结构 进行 规范 化 处 理 , 再 根据 待 蔡 入 的 秘密 信息 比特 是 1 还 是 0 分 别 对 
规范 化 文本 进行 “地 (得 )- 的 ”替换 或 是 保持 不 变 ,最 后 由 图 6-6 所 示 。 


原文 : iso didis “形容 词 + 的 + 动词 "符合 替换 结构 要 求 
| 


T T 
父亲 /的 /目的 /很 /明确 ， 就 是 /要 /他 /努力 /的 /学 习 。 


“…+ 的 + 名 "不 符合 替换 结构 要 求 


e 


规范 化 文本 : 


父亲 /的 /目的 /很 /明确 ， 就 是 /要 /他 /努力 /地 /学 习 。 


嵌入 1 时 : 父亲 的 目的 很 明确 ， 就 是 要 他 努力 的 学 习 。 
WAON: 父亲 的 目的 很 明确 ， 就 是 要 他 努力 地 学 习 。 


图 6-6 秘密 信息 嵌入 示例 


3. 信息 的 提取 


结构 助词 词 对 同音 替换 法 的 秘密 信息 自动 提取 可 按 以 下 步骤 进行 , 除 对 比 规范 化 文 
本 的 步骤 不 同 外 , 它 和 嵌入 方法 基本 类 似 。 其 中 所 述 的 原文 指 已 嵌入 秘密 信息 的 文本 。 

搜索 包含 “的 "“ 地 ?或 “得 ”的 句子 。 

@ 使 用 基于 规则 或 基于 统计 的 方法 对 该 句 进行 自动 分 词 。 若 分 词 后 “的 ”"“ 地 ?或 
“得 ”与 其 他 字 一 起 组 成 词 或“ 的"“ 地 ?或 “得 ”处 于 句 首 句 尾 , 则 这 些 情况 不 符合 替换 条 
件 , 只 需 处 理 在 分 词 后 以 单字 形式 出 现在 句 中 的 “的 “地 ”或 “得 ”。 若 不 存在 这 种 情况 ， 
则 回 到 中 继续 搜索 。 

@ 对 单字 形式 出 现在 句 中 的 “的 "“ 地 ?或 “得 ”及 它们 前 后 相 邻 的 中 心 词 进行 词性 标 
注 ,这 一 步 并 不 需要 完成 句 中 所 有 词 的 词性 标注 工作 。 

@ 若 词 性 标注 结果 存在 符合 结构 “(副词 形容词) 十 地 或 的 十 (动词 形容词)" 或 
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“(动词 形容词) 十 得 或 的 十 (动词 副词 形容词)” 的 情况 , 则 该 处 可 进行 提取 。 否 则 回 
到 @ 继 续 搜索 。 

© 先 对 原文 进行 规范 化 处 理 , 将 (副词. 形容词) 十 地 或 的 十 (动词 .形容词 )”“( 动 
d] .形容词 ) 十 得 或 的 十 (动词 副词 形容词 )” 分 别 规范 为 “(副词 形容词) 十 地 十 (动词 、 
形容 词 )”“ (动词 .形容 词 ) 十 得 十 (动词 .副词 形容词 )”, 将 原文 与 规范 化 文本 进行 对 
比 , 若 “ 地 ?或 “得 ”保持 不 变 , 则 原文 嵌入 了 一 个 二 进 制 位 0; 车 “的 "被 规范 化 为 “地 ”或 
“得 ”, 则 原文 府 入 了 一 人 

© 转 步 骤 四 继续 提取 下 一 个 二 进 制 位 ,直至 原文 已 搜索 完 


6.4 文本 过 滤 与 分 类 技术 


Internet 并 不 是 一 个 真空 环境 , 它 如 同一 把 双 刃 剑 , 在 给 人 类 造福 的 同时 ,也 带 来 了 
一 系列 的 社会 问题 。 在 不 同 的 社会 制度 .信息 环境 ,文化 背景 和 宗教 信仰 的 影响 下 ,各国 
用 户 在 这 一 国际 网 络 空间 从 事 信 息 发 布 、 传 递 和 使 用 的 过 程 中 ,表现 出 不 同 的 行为 规范 
和 道德 准则 。 信 息 环境 的 污染 主要 是 由 非法 信息 、 有 害 信息 、 无 用 信息 造成 的 。 由 于 世 
界 各 国 的 法 律 与 国情 是 不 一 样 的 ,对 违法 与 有 害 信息 的 理解 与 定义 也 不 一 样 ,但 有 一 点 
是 共同 的 ,这 些 信息 对 国家 安全 、 社 会 运行 秩序 和 大 多 数 人 的 利益 构成 威胁 。 这 就 使 得 
滤 除 各 类 有 害 或 无 用 的 信息 显得 尤为 迫切 。 
今 社会 ,信息 资源 已 经 成 为 人 们 竞争 的 重点 。 有 价值 的 信息 已 经 成 为 一 种 新 的 财 
富 。 大 规模 文本 过 滤 , 作 为 自然 语言 处 理 领 域 中 的 一 个 相当 活跃 的 分 支 ,所 研究 的 内 容 
就 是 如 何 准确 地 表达 用 户 的 需求 ,进而 在 大 规模 的 信息 流 中 自动 地 筛选 出 满足 用 户 特定 
需求 的 信息 ,使 人 们 更 有 效 地 利用 信息 资源 。 文 本 过 滤 技 术 在 帮助 人 们 获取 有 用 信息 、 
滤 除 无 用 和 有 害 信 息 方 面 起 着 至 关 重要 的 作用 ,也 引起 了 自然 语言 处 理 领 域 专家 学 者 们 
的 极 大 关注 。 


6.4.1 文本 过 滤 技术 


1. 文本 过 滤 技 术 概述 


文本 过 滤 技 术 大 致 可 以 分 为 两 类 :基于 内 容 的 过 滤 (content-based filtering) 和 合作 
过 滤 (collaborative filtering)。 在 基于 内 容 的 过 滤 模式 中 ,每 个 用 户 假 定 是 相互 独立 操作 
的 。 因 此 ,文本 表示 仅仅 依赖 于 从 文本 内 容 所 获取 的 信息 。 合 作 过 滤 的 出 发 点 在 于 任何 
人 的 兴趣 都 不 是 孤立 的 ,应 处 于 某 个 群体 当中 。 在 日 常生 活 中 ,人 们 接受 的 信息 往往 是 
周围 人 推荐 的 结果 。 因 此 ,根据 相同 或 者 相近 兴趣 的 用 户 对 相应 文本 做 出 的 评注 ,向 其 
他 用 户 进行 推荐 。 由 于 不 依赖 于 内 容 . 这 种 模式 不 仅 适用 于 文本 格式 ,也 可 以 广泛 应 用 
于 非 文 本 介质 的 电子 媒介 ,如 MP3、 图 像 、 视 频 等 。 

文本 过 滤 的 任务 定义 一 直 在 逐渐 演化 ,难度 也 越 来 越 大 。 以 著名 的 国际 文本 检索 会 
议 TREC 为 例 : 从 1997 年 的 TREC-6 开始 ,文本 过 滤 的 主要 任务 逐渐 固定 下 来 。 以 下 
是 从 TREC-9 至 今 的 文本 过 滤 项 目的 任务 定义 :给 定 一 个 主题 描述 ( 即 用 户 需 求 ) ,建立 
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一 个 能 从 文本 流 中 自动 选择 最 相关 文本 的 过 滤 模 板 (filtering profile) 。 随 着 文本 流 的 逐 
渐进 入 ,过滤 系 统 自动 地 接受 或 拒绝 文本 ,并 得 到 文本 相关 与 否 的 反馈 信息 ,再 根据 反馈 
信息 自 适应 地 修正 过 滤 模板 。 

文本 过 滤 项 目 包 含 三 个 子 任务 : 分 流 、 批 过 滤 、 自 适应 过 滤 。 

CD 分 流 (routing) 子 任务 。 用 户 需求 固定 ,提供 对 应 于 该 用 户 需求 的 训练 文本 集中 
的 相关 文本 ,从 用 户 需求 构造 查询 语句 来 查询 测试 文本 集 。 

(2) 批 过 滤 (batch filtering)。 它 和 分 流 子 任务 很 类 似 。 用 户 需 求 固 定 , 提 供 对 应 于 
该 用 户 需 求 的 训练 文本 集中 的 相关 文本 ,构造 过 滤 系统 ,对 测试 文本 集中 的 每 一 文本 作 
出 接受 或 拒绝 的 决策 ;不 同 的 是 分 流 任 务 要求 按 相似 度 从 大 到 小 的 顺序 检索 出 一 批文 
本 ,而 批 过 滤 则 要 求 将 文本 分 成 相关 和 不 相关 两 类 。 

(3) 自 适应 过 滤 (adaptive filtering)。 它 要 求 仅 从 主题 描述 出 发 ,不 提供 或 只 提供 很 
少 的 训练 文本 ,逐一 判断 输入 文本 流 中 的 文本 是 否 相 关 。 对 “接受 ”的 文本 ,能 得 到 用 户 
的 反馈 信息 ,用 以 自 适应 地 修正 过 滤 模 板 。 而 被 “拒绝 ”的 文本 是 不 提供 反馈 信息 的 。 这 
是 最 接近 真实 环境 也 是 最 困难 的 子 任务 。 


2. 文本 过 滤 主 要 方法 


文本 过 滤 的 主要 方法 包括 扩展 的 检索 模型 和 改造 的 分 类 模型 。 下 面 分 别 对 这 两 类 
模型 进行 介绍 。 

1) 扩展 的 检索 模型 

扩展 的 检索 模型 是 文本 过 滤 中 采用 的 主要 方法 ,其 思路 是 使 用 信息 检索 技术 对 输入 
的 文档 与 用 户 模板 之 间 的 相似 度 进行 计算 。 对 得 到 的 相似 度 使 用 一 个 相似 度 阔 值 进行 
过 滤 任 务 的 决策 。 相 似 度 高 于 阔 值 的 文档 被 认为 是 相关 的 。 相 似 度 低 于 阔 值 的 文档 被 
认为 与 用 户 模 板 无 关 , 将 被 系统 滤 除 。 在 扩展 的 检索 模型 中 ,一 个 重要 的 步骤 是 通过 反 
馈 来 提高 相似 度 计算 的 准确 性 。 同 时 , 阅 值 的 设置 和 学 习 也 是 扩展 的 检索 模型 中 使 用 的 
主要 技术 。 

扩展 的 检索 模型 的 典型 例子 是 Okapi 系统 ,是 英国 威 斯 敏 斯 特大 学 于 1982 年 到 
1988 年 之 间 开发 的 。 早 期 的 Okapi 系统 致力 于 开发 基于 概率 模型 的 高 度 交 互 的 检索 系 
统 。 从 1992 年 到 1997 年 ,英国 伦敦 城市 大 学 使 用 基于 Okapi 的 过 滤 系 统 参 加 了 TREC 
会 议 (TRECI-TREC6)。 从 TREC? 开始 ,对 Okapi 的 改进 和 应 用 工作 主要 由 剑桥 微软 研 
究 中心 进 行 。 剑 桥 微软 研究 中 心 还 开发 了 称 为 Keen bow 的 评价 环境 。 其 中 一 个 重要 的 
组 成 部 分 是 BSS 系统 (Basic Search System), BSS 系统 是 基于 概率 模型 的 面向 集合 的 检 
索 系 统 。 主 要 使 用 倒 排 索引 技术 对 文本 进行 检索 。 该 系统 致力 于 权重 公式 的 计算 以 及 
对 查询 的 扩展 。 并 提出 了 著名 的 权重 计算 公式 BM25 ,如 下 式 所 示 : 


ob Cn + DCRs + Datf 
Zw FD ks + qt da 
式 中 的 Q 是 包含 项 T 的 查询 ,w 是 Roberso/sparek Jones 权重 公式 。 
w? (Cr 十 0.5)CR 一 * 十 0.5) 人 


leg 0 N= aR Er TOS) 


POS 文本 内 容 安 全 
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式 中 ,N 是 文档 集中 的 文档 数 ,n 是 包含 项 T 的 文档 数 ,R 是 已 知 的 相关 文档 数 ,r 是 包含 
项 T 的 相关 文档 数 。 
K = kı (1 — b) +b » dl/avdD (6-7) 

hb 和 ks 都 是 依赖 于 查询 和 文档 集 的 参数 。 一 般 情况 下 ,k， 和 2 分 别 取 1. 2 和 
0. 75, 

ks 通常 取 7 或 1000,t 是 在 文档 中 项 了 出 现 的 频率 ,qtf 是 主题 中 项 T 的 出 现 频率 ， 
dl 是 文档 长 度 ,avdl 是 平均 文档 长 度 。 

Okapi 系统 采用 相关 反馈 的 方法 进行 查询 扩展 ,根据 一 定 的 评价 指标 对 待 选 的 项 进 
行 排序 ,根据 排序 结果 选取 固定 数量 的 项 进行 查询 扩展 。 在 阔 值 的 调整 方面 ,Okapi 采用 
logistic 回归 的 方法 。 

2) 改造 的 分 类 模型 

在 文本 过 滤 中 ,判断 文本 是 否 符合 用 户 需求 可 以 看 作 是 一 个 两 类 (是 /和 否 ) 的 分 类 问 
题 。 文 本 分 类 的 主要 方法 都 可 以 应 用 到 文本 过 滤 中 来 。 文 本 过 滤 中 采用 的 主要 分 类 方 
法 有 Bayes 方法 k 近邻 法 (KNN) ,决策 树 方法 ,支持 向 量 机 法 、 神 经 网 络 法 。 

(1) Bayes 法 

设 训练 样本 集 分 为 M 类 (文本 过 滤 中 M=2) , 记 为 C={c,…,ci,…,cm) ,每 类 的 先 
验 概率 为 PCci) ,i 二 1,2,…,M。 当 样本 集 非常 大 时 ,可 以 认为 pC) — C; 类 样本 数 /总 样 
本 数 。 对 于 一 个 样本 x, 其 归于 e; 类 的 类 条 件 概率 是 p Gela 

则 根据 Bayes 定理 ,可 得 到 c, 类 的 后 验 概率 p Cc; le) Js 
pla | c) * pi) 

p(x) 

若 pG; x22» pC; l3) 4i 1,2. 7 M, j 1.2. M WA x € c; 是 最 大 后 验 概率 判决 

准则 , 则 有 : 
bG; | Dp) > plej | ple), i — 1.2, M.j =1,2,..,M 

这 就 是 常用 到 的 Bayes 分 类 判决 准则 。 经 过 长 期 的 研究 ,Bayes 分 类 方法 在 理论 上 
论证 得 比较 充分 ,在 应 用 上 也 是 非常 广泛 的 。 从 理论 上 来 说 ,Bayes 分 类 器 具有 最 优 的 性 
能 , 即 所 实现 的 分 类 错误 率 或 风险 在 所 有 的 分 类 器 中 是 最 小 的 ,因此 该 方法 常常 被 用 来 
作为 衡量 其 他 分 类 器 设计 方法 优 劣 的 标准 。 另 外 ,根据 实际 情况 的 不 同 ,以 Bayes 决策 
为 基础 ,人 们 还 经 常 使 用 以 下 三 种 分 类 方法 : 

CD 基于 最 小 风险 的 Bayes 决策 。 如 果 考 虑 不 同 错 分 情况 下 有 不 同 的 风险 ,并 使 错 分 
的 风险 最 小 , 则 此 时 的 Bayes 决策 称 为 基于 最 小 风险 的 Bayes 决策 。 

© 尼 曼 -皮尔 松 分 类 器 。 这 是 一 种 两 类 别 决策 方法 .设计 原则 是 在 第 二 类 判 错 的 概 
率 保持 为 常数 的 情况 下 ,使 第 一 类 判 错 的 概率 为 最 小 。 

@ 最 小 最 大 决策 。 基 于 最 小 错误 率 的 Bayes 决策 的 一 个 前 提 是 类 别 概率 p Cc dé E] 
定 的 。 最 小 最 大 决策 就 是 考虑 p(ci) 变 化 的 情况 下 ,如 何 使 最 大 可 能 的 风险 为 最 小 ,也 就 
是 在 最 差 的 条 件 下 争取 最 好 的 结果 ,这 是 一 种 比较 保守 的 分 类 方法 。 

Bayes 方法 的 薄弱 环节 在 于 实际 情况 下 ,类 别 总 体 的 概率 分 布 和 各 类 样本 的 概率 分 
布 函数 (或 密度 函数 ) 常 常 是 不 知道 的 ,为 了 获得 它们 ,就 要 求 样本 足够 大 。 


plci | x) = (6-8) 


156 


Qi asstumssa 


(2) k 邻近 法 (kNN) 

在 多 数 分 类 问题 中 ,往往 不 知道 类 概率 密度 函数 形式 ,常见 的 函数 形式 并 不 代表 实 
际 的 真正 密度 分 布 。 特 别 是 ,经 典 的 参数 估计 大 都 适用 于 平滑 变化 和 单 峰 突出 的 密度 分 
布 , 只 有 一 个 极 大 值 ,而 许多 实际 概率 分 布 却 大 多 是 多 峰 的 。 在 这 种 情况 下 就 要 应 用 非 
参数 估计 统计 决策 方法 , 它 无 须 假 设 类 概率 密度 函数 形式 为 已 知 条 件 ,而 是 由 训练 样本 
集 直接 估计 类 概率 密度 函数 ,适用 于 单 峰 和 多 峰 情 况 , 包 括 kNN 法 和 Parzen 等 ,其 中 最 
常用 的 是 k 近邻 法 , 即 kNN 求法 。 最初 的 近邻 法 由 Cover 和 Hart 于 1968 年 提出 ,是 一 
个 理论 上 比较 成 熟 的 方法 。 该 方法 的 思路 非常 简单 直观 :如 果 一 个 文本 (向 量 ) 在 特征 空 
间 中 的 & 个 最 近邻 文本 (向 量 ) 中 的 大 多 数 属于 某 一 个 类 别 , 则 该 文本 (向 量 ) 也 属于 这 个 
类 别 。 在 实际 问题 中 ,经 常 取 3 三 k 二 7。 与 Bayes 方法 比较 ,kNN 是 一 个 次 优 方法 ,因为 
它 使 用 后 验 概率 的 估 值 作为 后 验 概率 。 

该 方法 的 优点 是 简单 准确。 理论 上 , 它 的 错误 概率 的 界限 是 Bayes 方法 的 两 倍 ,但 
在 实际 使 用 上 ,由 于 Bayes 方法 的 条 件 比 较 难 于 满足 ,因此 ,kNN 的 效果 反而 要 比 Bayes 
方法 好 一 些 甚 至 好 很 多 。 该 方法 的 不 足 是 计算 量 较 大 ,因为 对 每 一 个 待 分 类 的 文本 ,都 
要 计算 它 到 全 体 已 知 样本 的 距离 ,才能 求 得 它 的 个 最 近邻 点 。 常 用 的 解决 方法 一 是 事 
先 对 已 知 样本 点 进行 剪辑 ,去 除 对 分 类 作用 不 大 的 样本 , 另 一 种 方法 是 用 空间 换 时 间 , 事 
先 将 所 有 样本 点 的 两 两 距离 计算 出 来 并 存 人 相应 的 位 置 以 备 检索 。 前 者 容易 产生 新 的 
误差 ,后 者 将 占用 过 多 的 存储 空间 。 

(3) 支持 向 量 机 法 (SVMD 

引入 SVM 的 一 个 重要 前 提 是 以 往 的 方法 容易 产生 “过 学 习 ” 现 象 。 由 于 SVM 在 训 
练 分 类 器 时 充分 考虑 了 小 样本 情况 ,因此 能 够 较 好 地 解决 这 种 “过 学 习 ” 问 题 。 该 方法 属 
于 研究 小 样本 情况 下 机 器 学 习 规 律 的 统计 学 习 理 论 范 畴 ,是 1995 年 提出 的 ,具有 相对 优 
良 的 性 能 指标 。 其 核心 思想 是 在 分 类 的 误差 风险 和 分 类 函数 的 复杂 性 之 间 取 得 一 个 平 
衡 , 从 而 使 分 类 器 对 小 样本 情况 具有 较 好 的 适应 性 ,克服 了 “过 学 习 ” 现 象 。 

支持 向 量 机 可 以 表述 为 要 发 现 一 个 超 平面 H (D — sign Ge * d+b) , 它 能 将 训练 集中 
的 数据 分 开 ( 即 训练 误差 最 小 ) ,而 且 有 最 短 的 权重 向 量 。 支 持 向 量 有 以 下 一 些 特点 ; 

O 它们 是 各 类 中 与 超 平面 有 着 最 小 距离 的 训练 样本 。 

@ 支持 向 量 尽 管 数量 少 , 但 却 包 含 了 分 类 所 需 的 信息 。 

© 大 部 分 训练 样本 不 是 支持 向 量 , 因 此 移 去 或 减少 这 些 样 本 对 分 类 器 没有 影响 。 

当 样 本 空间 非 线 性 可 分 时 ,可 通过 核 函 数 把 样本 空间 映射 到 一 个 高 维 的 线性 空间 ， 
并 在 新 的 空间 完成 点 积 运算 。 为 了 方便 计算 ,通常 选择 三 种 特殊 形式 的 核 函 数 作为 映射 
函数 : 多 项 式 核 函 数 , 径 向 基 函 数 和 sigmoid 函数 。 

(4) 决策 树 方法 

前 述 各 种 方法 在 数学 上 表现 为 构造 判决 曲面 。 在 实际 工作 中 ,构造 判决 曲面 时 经 常 
会 遇 到 两 种 困难 :第 一 ,各 类 之 间 的 界面 形状 比较 特殊 ,难以 用 平面 球面 或 二 次 曲面 方 
程 进行 描述 。 而 如 果 试 图 构造 更 复杂 的 曲面 , 则 工作 量 会 大 大 增加 ;第 二 ,各 类 样本 点 常 
常会 出 现 互相 混淆 的 情况 ,因而 难以 用 一 个 判决 曲面 把 它们 截然 分 开 。 

为 了 克服 这 些 困 难 , 可 以 采用 多 级 判决 的 方法 , 即 分 成 几 步 进行 判别 分 类 。 第 一 步 ， 
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利用 某 一 判别 方法 把 待 分 类 的 文本 分 到 某 几 个 大 组 之 一 。 这 些 大 组 中 可 能 仍然 包括 几 
个 不 同 的 类 。 再 对 分 到 各 组 中 的 文本 进一步 判别 ,然后 循 此 进行 ,直到 把 它 分 到 某 个 确 
定 的 类 为 止 。 

决策 树 方法 是 最 常用 的 分 类 方法 之 一 。 它 有 以 下 几 个 优点 : 

| 一般 来 说 ,由 于 决策 树 分 类 是 分 成 几 步 来 进行 的 ,因此 精确 度 比 一 次 判决 要 高 些 。 

@ 由 于 决策 树 分 类 器 是 分 步 进行 的 ,因此 每 一 步 的 判决 规则 可 以 取得 简单 一 些 。 

© 每 一 步 不 必 使 用 全 部 的 特征 ,而 只 使 用 少数 有 效 特征 ,这 样 可 以 减少 每 一 步 的 工 
作 量 。 

(D 分 类 速度 较 快 。 它 的 不 足 之 处 是 要 在 分 类 器 的 建立 上 用 较 多 的 时 间 ,还 涉及 树 的 
结构 的 确定 。 另 外 ,对 不 同 的 层次 上 使 用 的 特征 和 分 类 方法 进行 选择 以 达到 最 优 也 是 一 
个 比较 困难 的 工作 。 

(5) 神经 网 络 法 

神经 网 络 法 的 思想 是 用 一 系列 具有 简单 计算 特性 的 单元 (神经 元 类 型 ) 来 组 成 具有 
一 定数 学 功能 的 结构 模型 ,这 些 单元 之 间 具 有 广泛 的 连接 (网 络 结构 ), 且 连接 的 强度 可 
以 根据 输入 输出 数据 进行 调节 (学 习 算 法 )。 其 中 常用 的 神经 元 模型 是 阅 值 函数 和 
sigmoid 函数 。 

该 方法 的 优点 是 能 够 有 效 地 解决 很 多 非 线 性 问题 ,不 足 之 处 是 理论 上 还 不 够 完善 ， 
应 用 时 仍 有 很 多 因素 需要 人 根据 经 验 来 确定 ,例如 初始 值 的 确定 和 步 长 的 选择 ,另外 还 
存在 着 “过 学 习 ” 问 题 。 目 前 ,人 们 已 经 研究 出 了 几 十 种 不 同 的 神经 网 络 ,其 中 在 分 类 上 
比较 常用 的 有 多 层 感知 器 、 自 组 织 映射 和 Hopfield 网 。 


6.4.2 文本 分 类 技术 


文本 分 类 就 是 将 大 量 文本 文档 划分 为 一 个 或 一 组 类 别 , 使 得 各 个 类 别 代表 不 同 的 概 
念 主题 。 文 本 分 类 实际 上 是 一 个 模式 分 类 任务 ,所 以 许多 模式 分 类 的 算法 可 以 应 用 到 文 
本 分 类 中 。 但 是 ,文本 分 类 同时 又 是 模式 分 类 和 自然 语言 处 理 的 一 个 交叉 学 科 , 是 和 文 
档 的 语义 紧密 相关 的 ,所 以 与 普通 的 模式 分 类 任务 相 比 有 许多 独特 之 处 。 

20 世纪 90 年 代 以 前 , 占 主导 地 位 的 文本 分 类 方法 一 直 是 基于 知识 工程 的 分 类 方法 ， 
即 由 专业 人 员 手 工 进行 分 类 。 人 工分 类 非常 费时 ,效率 过 低 。90 年 代 以 来 ,文本 分 类 技 
术 的 研究 引起 了 研究 人 员 的 极 大 兴趣 ,众多 的 统计 方法 和 机 器 学 习 方 法 应 用 于 自动 文本 
分 类 。 目 前 英文 自动 分 类 已 经 取得 了 丰硕 的 成 果 , 提 出 了 多 种 成 熟 的 分 类 方法 ,如 最 近 
邻 分 类 、 贝 叶 斯 分 类 ,决策 树 方法 以 及 基于 支持 SV M .向量 空 间 模型 (VSM) 、 回 归 模 型 和 
神经 网 络 等 方法 ,但 对 于 中 文 文本 的 自动 分 类 技术 研究 尚 不 尽 如 人 意 。 目 前 国内 中 文 文 
本 分 类 研究 主要 集中 在 朴素 贝 叶 斯 、 向 量 空间 模型 和 支持 向 量 机 等 技术 上 。 

文本 分 类 技术 的 研究 主要 分 为 两 个 阶段 : 

CD. 基于 规则 的 文本 分 类 阶段 

应 用 知识 工程 的 方法 ,采用 人 工 方式 来 构建 分 类 器 。 大 量 的 领域 专家 和 知识 工程 师 
手工 编制 决策 树 等 推理 规则 或 者 专家 系统 。 其 优点 在 于 分 类 的 思想 容易 被 人 们 理解 , 专 
家 写 出 的 规则 可 以 被 大 多 数 人 接受 ,并 且 对 于 特定 领域 和 同 源 的 样本 分 类 效果 很 好 。 缺 
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点 是 需要 大 量 的 人 来 编制 规则 ,开发 时 间 较 长 而 且 费 用 昂贵 ,而 且 即 使 是 经 验 丰富 的 专 
家 也 很 难保 证 规则 的 一 致 性 和 正确 性 。 另 外 ,基于 规则 的 分 类 系统 是 针对 特定 的 学 科 领 
域 和 应 用 环境 构建 的 ,不 能 直接 移植 于 其 他 的 应 用 系统 。 这 一 阶段 典型 的 应 用 系统 是 
Carnegie Group 开发 的 CONSTRUE 系统 ,对 路 透 社 每 天 成 千 上 万 的 稿件 进行 分 类 。 

(2) 基于 机 器 学 习 的 文本 分 类 阶段 

20 世纪 90 年 代 以 后 , 随 着 机 器 学 习 方 法 在 语音 识别 等 领域 取得 了 很 大 的 进展 , 越 来 
越 多 的 研究 人 员 开 始 将 机 器 学 习 方法 引入 到 文本 分 类 任务 中 。 由 于 其 实现 机 制 简单 , 构 
建 过 程 不 需要 人 工 干预 ,并 且 其 分 类 效果 甚至 超过 了 基于 规则 的 系统 。 因 此 基于 机 器 学 
习 的 文本 分 类 系统 很 快 替代 了 基于 规则 的 系统 ,成 为 研究 文本 分 类 的 主流 方向 。 

几乎 所 有 重要 的 机 器 学 习 算 法 都 被 应 用 到 该 任务 中 ,比如 最 近邻 算法 (k-Nearest 
Neighbor. kNN) , Ul n 3r , ese f MESE RI 4 LC ii BE LLLSFE Fi] — 3f BUR [8L D BE 
型 支持 向 量 机 等 。 因 此 目前 对 文本 分 类 的 研究 基本 上 都 是 基于 机 器 学 习 的 方法 。 

如 图 6-7 所 示 ,构建 基于 机 器 学 习 的 文本 分 类 系统 的 过 程 大 致 分 为 三 部 分 :第 一 部 分 
是 文本 表示 ;第 二 部 分 是 分 类 器 训练 过 程 ,通过 对 训练 数据 进行 处 理 得 到 分 类 器 ;第 三 部 
分 是 分 类 测试 过 程 , 将 处 理 过 的 测试 文本 输入 给 分 类 器 ,分 类 器 就 会 给 出 该 文本 的 类 别 。 


图 6-7 文本 分 类 过 程 


CD. 文本 表示 阶段 :包括 文本 预 处 理 、 特 征 降 维 、 权 重 计算 。 文 本 预 处 理 主 要 是 进行 
去 禁用 词 . 词 形 还 原 ( 针 对 英文 文本 )、 分 词 ( 针 对 中 文 文本 )、 词 性 标注 ,短语 识别 等 ;并 且 
统计 词 频 、 文 档 频率 等 ;经 过 文本 预 处 理 . 然 后 将 文本 表示 成 VSM, 在 VSM 中 ,文本 d 
用 标 引 项 向 量 来 表示 ,如 下 式 所 示 : 

d = CGOi wii Gi wa) (ts Wma )) (6-9) 

式 中 : z; 为 文本 d 中 的 第 i NRE wa RIR t:i 在 文本 d 中 的 权重 ,n 为 特征 集 的 大 小 。 

特征 可 以 是 词 、 短 语 、 概 念 \,N-gram、 词 簇 等 。 特 征 权重 计算 的 方法 主要 有 布尔 权重 、 
词 频 权重 、TF-IDF 权重 、 基 于 炉 概念 的 权重 等 。 

在 文本 分 类 中 ,向 量 空间 模型 是 最 常用 的 文本 表示 方法 。 在 该 模型 中 ,文本 被 表示 


POS 文本 内 容 安全 


159 


为 一 个 向 量 , 向 量 的 每 一 维 对 应 一 个 特征 。 在 基于 向 量 空间 模型 的 文本 分 类 系统 中 , 较 
为 常见 的 是 以 单词 作为 特征 来 表示 文本 。 当 把 文本 表示 成 特征 向 量 时 ,其 特征 数 将 达到 
几 万 甚至 是 几 十 万 ,而 且 , 随 着 信息 量 的 迅速 增多 ,大 规模 的 文本 分 类 成 为 人 们 关注 的 焦 
点 。 因 此 ,在 训练 分 类 器 之 前 ,首先 进行 特征 降 维 处 理 。 特 征 降 维 的 目标 是 尽量 在 不 影 
响 分 类 器 效果 的 前 提 下 ,去除 信 息 量 较 少 或 者 不 重要 的 特征 。 常 用 的 特征 降 维 方式 主要 
有 两 种 :特征 选择 和 特征 抽取 。 特 征 选择 是 根据 某 种 准则 从 初始 的 特征 集中 选择 比较 重 
要 的 .类别 区 分 能 力 较 大 的 特征 ,其 结果 是 原 特征 集 的 子 集 。 目 前 常用 的 选取 方法 有 文 
档 频 度 、 互 信息 \ 信 息 增益 、 解 统计 、 术 语 强 度 、 特 征 炉 等 。 特 征 抽 取 是 将 原 有 的 特征 进行 
综合 或 重组 ,产生 新 的 特征 , 即 构造 从 原始 特征 空间 到 低 维 空间 的 一 个 变换 。 抽 取 的 方 
法 主要 有 潜在 语义 索引 、 特 征 聚 类 、 基 于 知识 库 的 特征 等 。 

(2) 分 类 器 训练 阶段 : 主要 是 用 各 种 机 器 学 习 的 方法 对 训练 数据 进行 分 析 , 从 中 学 
习 出 各 个 类 别 的 不 同 特点 ,从 而 生成 所 需 的 分 类 器 。 目 前 常用 的 分 类 器 有 kNN、 贝 叶 斯 、 
决策 树 .神经 元 网 络 、 最 大 炉 模型 支持 向 量 机 等 。 

(3) 分 类 器 测试 阶段 : 首先 将 测试 文本 进行 文本 表示 ,然后 利用 训练 好 的 分 类 器 对 
测试 文本 进行 分 类 。 给 每 个 测试 文本 加 上 最 可 能 的 类 别 标签 。 

上 面 描述 的 是 有 监督 的 分 类 过 程 , 即 训练 数据 是 经 过 人 工 标 注 好 的 ,每 个 训练 文本 
都 有 一 个 类 别 标签 。 目 前 半 监 督 或 者 无 监督 的 文本 自动 分 类 已 广泛 应 用 到 许多 的 领域 ， 
例如 文本 的 过 滤 、Web 页 面 的 层次 分 类 .语义 消 歧 .垃圾 邮件 过 滤 .主题 检测 与 追踪 等 文 
本 处 理 的 多 个 方面 。 自 动 文本 分 类 在 很 多 动态 的 和 个 性 化 的 信息 管理 任务 中 起 到 重要 
的 作用 ,比如 邮件 实时 的 分 类 、 文 件 层次 分 类 、 垃 圾 邮件 过 滤 ,通过 对 主题 的 识别 来 支持 
对 特定 主题 的 操作 等 。 分 类 技术 既 能 支持 相对 静态 的 分 类 ,例如 对 于 Medieal subject 
Headings(Mesh) 的 分 类 ,雅虎 的 主题 层次 分 类 等 ,也 能 支持 那些 动态 的 ,与 个 人 兴趣 相关 
的 分 类 情况 。 

文本 过 滤 和 文本 分 类 有 很 大 的 相似 之 处 。 文 本 分 类 就 是 将 文本 归 到 若干 个 类 别 中 。 
在 文本 分 类 过 程 中 ,文本 的 类 别 可 以 是 预先 给 定 的 ,也 可 以 是 不 确定 的 。 前 者 对 应 自动 
分 类 中 的 自动 归 类 ,后 者 对 应 自动 分 类 中 的 自动 聚 类 。 自 动 归 类 是 分 析 被 分 类 对 象 的 特 
(iE ,并 与 各 种 类 别 中 对 象 所 具有 的 共同 特征 (或 一 定 的 分 类 标准 、 分 类 参数 ) 进 行 比 较 , 然 
后 将 对 象 划 归 为 特征 最 接近 的 一 类 (或 最 符合 标准 参数 的 一 类 ) ,并 赋予 相应 的 分 类 号 。 
在 文本 过 滤 中 ,判断 文本 是 否 符合 用 户 需求 可 以 看 作 是 一 个 两 类 (是 /和 否 ) 的 分 类 问题 。 


6.4.3 典型 的 文本 过 滤 和 分 类 方法 


我 们 在 6. 4. 1 节 中 对 文本 过 滤 技 术 的 方法 作 了 较 详细 的 介绍 ,下 面 介绍 一 下 文本 分 
类 中 的 一 些 典 型 算法 。 文 本 分 类 的 方法 大 部 分 来 自 于 模式 分 类 ,基本 上 可 以 分 为 三 
大 类 。 

1. 基于 统计 的 方法 


1) Naive Bayes 方法 
Naïve Bayes 分 类 方法 (以 下 简称 NB 法 ) 是 一 种 简单 而 又 非常 有 效 的 分 类 方法 。 
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NB 法 的 一 个 前 提 假设 是 :在 给 定 的 文档 类 语 境 下 ,文档 属性 是 相互 独立 的 。 假 设 di 为 
一 任意 文档 , 它 属于 文档 类 C= (Lo ,cs，…,c;} 中 的 某 一 类 c;。 根 据 NB 分 类 法 有 : 


bic ld) = padoe) (6-10) 


k 
bl = X) pl) pldi | c) (6-11) 
-1 


对 文本 d; 进行 分 类 ,就 是 按 式 (6-11) 计 算 所 有 文档 类 在 给 定 d; 情况 下 的 概率 ,概率 

值 最 大 的 那个 类 就 是 d; 所 在 的 类 , 即 : 
d; € cj if plc | d) = maxpC, | d) (6-12) 

由 式 (6-10) 和 式 (6-12) 可 知 , 对 于 给 定 分 类 背景 和 测试 文档 ,用 NB 法 分 类 的 关键 就 
是 计算 plcj) 和 pldilc)。 计 算 plcj) 和 pldilcj) 的 过 程 就 是 建立 分 类 模型 的 过 程 。 

根据 p (di |c) 计 算 方式 的 不 同 ,可 以 将 Naive Bayes 方法 分 为 最 大 似 然 模型 
(maximum Likelihood model)、 多 项 式 模型 (multinomial model)、 泊 松 模型 (poison 
model) 等。 

2) kNN 方法 

KNN iX Hl k-Nearest Neighbor 分 类 方法 ,这 是 一 种 稳定 而 有 效 的 文本 分 类 方法 。 采 
用 KNN 方法 进行 文档 分 类 的 过 程 如 下 :对 于 某 一 给 定 的 测试 文档 X ,在 训练 文档 集中 ， 
通过 相似 度 找到 与 之 最 相似 的 个 训练 文档 。 然 后 根据 式 (6-13) 计 算 X 与 每 个 类 别 的 
相似 度 ,并 按 相似 度 进行 排序 。 还 应 当 设 定 一 个 冰 值 ,只 有 分 值 超过 阔 值 的 类 才 了 予以 考 
虑 。 测 试 文档 属于 超过 阔 值 的 所 有 类 。 


Score(X ,cj ) = y» Sim X. X0 yCGX;.6;) — bj (6-13) 
X,€kNN 
其 中 ， 
1, Xe GE 
y(Xisci;) = 0, Xes (6-14) 


b; H BUE Sim X ,Xi) 为 文档 X M X: E , score X «c; HWX X 属于 c 类 的 
分 值 , 符 号 kNN 表示 文档 X 的 & 个 最 近邻 组 成 的 文档 集合 。 

对 于 某 一 特定 类 来 说 , 是 一 个 有 待 优化 的 值 。 一 般 5 可 以 通过 一 个 验证 文档 集 来 
进行 调整 。 验 证 文档 集 是 训练 文档 集 的 一 部 分 。 根 据 式 (6-13) 的 结果 ,可 以 确定 测试 文 
档 的 类 别 。 很 显然 ,对 于 每 一 个 测试 文档 ,必须 求解 它 和 训练 文档 库 中 所 有 文档 的 相 
似 度 。 

3) 类 中 心 向 量 方法 

类 中 心 向 量 方法 是 一 种 基于 向 量 空间 模型 的 方法 。 在 分 类 器 的 训练 阶段 ,使 用 训练 
文档 集 得 到 每 一 个 类 别 所 对 应 的 中 心 向 量 。 在 分 类 阶段 ,对 于 某 一 给 定 的 文档 & ,计算 文 
档 向 量 和 每 个 类 别 中 心 向 量 的 相似 度 ,然后 按 相似 度 进行 从 大 到 小 排序 。 相 似 度 最 大 值 
所 对 应 的 类 别 ,就 是 文档 的 所 属 类 别 。 如 果 和 希望 文档 可 以 属于 多 个 类 别 , 可 以 设 定 一 个 
闵 值 ,文档 属于 相似 度 超过 辣 值 的 所 有 类 。 

常用 的 获得 类 别 中 心 向 量 的 方法 有 以 下 几 种 : 
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(1) Rocchio 方法 
Rocchio 方法 是 一 种 批 处 理 的 学 习 方法 ,算法 从 已 存在 的 向 量 w ,及 一 组 训练 实例 中 
产生 一 个 新 的 权重 向 量 ww 的 第 7) 个 分 量 ww 为 : 
DAT y PP 


n. n —n, 


(6-15) 


| 
wj awi j +B 


式 中 ,n XVI AFER BURCEI C (Lin y; — 1) E ERIA R n 是 正 类 训练 样本 
数 。 参 数 guy 则 分 别 用 来 控制 初始 权重 向 量 、 正 例 、 负 例 的 相对 影响 ,通常 设 a0. 9— 
1,Y—1. 

(2) Windrow-Hoff 算法 

LMS 或 Windrow-Hoff 算法 是 一 种 在 线 学 习 算 法 ,每 次 使 用 一 个 训练 样本 对 旧 的 类 
别 向 量 权重 进行 更 新 。 初 始 状态 下 ,可 以 设置 w 二 (0,…,0), 当然 也 可 以 将 其 设 为 其 他 
值 。 每 一 步 , 新 的 权重 向 量 w+ 从 旧 的 权重 向 量 rw、 使 用 带 标 签 w 的 训练 实例 x; 计算 而 
来 ,新 权重 向 量 的 第 j 个 分 量 通过 以 下 公式 来 计算 

Wi; = wi; 十 27(wi + xi — yx (6-16) 

其 中 ,参数 /人 >0, 我 们 将 其 称 为 学 习 率 , 用 来 控制 权重 向 量 w 的 变化 速度 ,以 及 每 一 个 新 
的 训练 样本 对 它 的 影响 。WH 可 以 看 作 一 个 梯度 下 降 过 程 ,因为 20w，z 一 y)z 人 恰好 是 
平方 差 (w。z 一 y)2 的 梯度 。 因 此 ,WH 总 是 沿 着 方差 减 小 最 快 的 方向 来 移动 。 

(3) EG 算法 

EG(Exponentiated-Gradient) 算 法 类 似 于 WH 算法 ,每 次 使 用 一 个 训练 样本 对 旧 的 
类 别 向 量 进行 更 新 。 但 是 ,类 别 向 量 的 第 i 维 限制 为 非 负 值 .并 且 进 行 了 归 一 化 。 初 始 时 
刻 ,设置 权重 向 量 的 每 一 维 都 相等 , 即 wi; 二 (1/d,1/d,…,1/d),d 为 特征 空间 的 维 数 。 
EG 算法 的 更 新 规则 如 下 : 


Wi jexp(— lwit: — Yi) Lij) 


(6-17) 


Uu 


27 wisexp(— ZqC wir; — Yi) Lij) 

4) 回归 模型 

回归 模型 中 最 为 典型 的 就 是 LLSF 方法 。 给 定 训练 文档 集 和 文档 类 集 ,LLSF 将 其 
表示 为 两 个 矩阵 4 和 B。A 代表 原始 空间 ,和 矩阵 的 第 i 行 、 第 j 列 的 元 素 代表 文档 T, 中 
的 第 j 个 特征 的 权 值 。B 代表 目标 空间 ,和 矩阵 的 每 一 个 元 素 只 能 取 0 或 1。 如 果 文 档 
T; 属于 类 别 c;, 那 么 矩阵 的 第 i 行 、 第 j 列 的 元 素 取 值 为 1, 否则 取 值 为 0。 

统计 文档 中 所 有 词 的 出 现 频率 ,使 用 IDF 计算 词 的 权 值 ,可 以 得 到 和 矩阵 A; 统 计 每 一 
篇 训练 文档 的 所 属 类 别 ,可 以 得 到 目标 空间 矩阵 B。 这 样 文本 分 类 问题 就 转换 为 求 一 个 
满足 条 件 (B。x,)" — Fi * CA 07 的 矩阵 Fix, 的 问题 ,其 中 Fon de — T i8 26 p OR 
阵 , 行 代表 类 别 , 列 代表 词 。LLSF 就 是 寻找 矩阵 Fix, ,使 得 下 式 的 值 最 小 。 


Sel? = $ | Fa} — o? |? = lrAT — B7 ||? (6-18) 
解决 LLSF 的 方法 之 一 是 将 矩阵 A 进行 SVD( 奇 异 值 分 解 )， 
F — B'(A?)? = (6-19) 


给 定 一 篇 文档 d — (wi we tw, ) ,可 以 通过 计算 y= CFdT07 ,将 其 映射 到 目标 空 
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E. y= {yyy PES y REX —1—1. RRA d 与 每 一 类 的 相关 度 。 

50 B KR Bo 

Tick Aij BiU (maximum entropy model) 的 基本 原理 是 拟 合 所 有 已 知事 实 , 保 持 对 未 
知事 件 的 未 知 状态 。 换 言 之 ,就 是 给 定 一 些 事实 集 ,选择 一 种 模型 与 现 有 事实 一 致 ,对 于 
未 知事 件 尽 可 能 使 其 分 布 均匀 。 它 可 以 对 非常 广泛 的 自然 语言 现象 建立 概率 模型 ,综合 
观察 到 的 各 种 相关 或 不 相关 的 概率 知识 ,对 许多 问题 的 处 理 结果 都 到 达 或 超过 了 其 他 方 
法 的 最 好 结果 。 最 大 焙 模 型 被 广泛 地 应 用 于 自然 语言 处 理 中 ,包括 分 词 ,词性 标注 .词义 
HEB .短语 识别 、 机 器 翻译 等 。 

6) 支持 向 量 机 

支持 向 量 机 是 在 统计 学 习 理论 (statistical learning theory) 的 基础 上 发 展 而 来 的 一 
种 机 器 学 习 方法 , 它 基 于 结构 风险 最 小 化 原理 。 其 基本 思想 是 构造 一 个 超 平面 作为 决策 
平面 ,使 正 负 模式 之 间 的 间隔 最 大 。 支 持 向 量 机 在 解决 小 样本 、 非 线性 及 高 维 模式 识别 
问题 中 表现 出 了 许多 特有 的 优势 ,并 能 够 推广 应 用 到 函数 拟 合 等 其 他 机 器 学 习 问 题 中 。 

SVM 已 初步 表现 出 很 多 优 于 已 有 方法 的 性 能 ,并 在 很 多 领域 得 到 了 成 功 的 应 用 ,如 
人 脸 识别 .手写 体 识别 ,文本 分 类 等 。 在 文本 分 类 方面 SVM 的 表现 尤为 突出 ,其 分 类 性 
能 几乎 超过 了 现 有 的 所 有 方法 。 


2. 人 工 神经 网 络 


人 工 神 经 网 络 (Artificial Neural Networks. ANN) 是 对 人 类 大 脑 系 统 的 一 阶 特性 的 
一 种 描述 ,是 一 个 并 行 ,分布 处 理 结构 , 它 由 处 理 单元 及 其 称 为 连接 的 无 向 信号 通道 互 连 
而 成 。 具 有 信息 分 布 存 放 、 运 算 全 局 并 行 、 处 理 的 非 线 性 等 特点 ,适用 于 学 习 一 个 复杂 的 
非 线性 映射 ,主要 应 用 于 语音 、 视 觉 . 知 识 处 理 、 辅 助 决策 等 方面 。 根 据 网 络 结构 和 学 习 
算法 的 不 同 ,人 工 神经 网 络 分 为 多 层 感知 器 、 自 组 织 映 射 和 Hopfield 网 等 。 

下 面 以 BP 网 络 为 例 来 说 明 人 工 神 经 网 络 在 文 
本 分 类 中 的 应 用 。BP 神经 网 络 就 是 采用 BP(Back 
Propagation) 算 法 进行 训练 的 多 层 感 知 器 网 络 ,该 
网 络 具 有 一 个 输入 层 , 一 个 输出 层 和 至 少 一 个 隐藏 
(中 间 ) 层 。 一 般 情况 下 ,选用 一 个 隐藏 层 就 足够 
了 ,此 时 其 结构 如 图 6-8 所 示 。BP 算法 是 非 循环 多 输入 向 量 输出 向 量 
级 网 络 的 训练 算法 ,其 学 习 过 程 由 正 向 传播 和 反 向 图 6-8 =E BP 神经 网 络 结构 圈 
传播 组 成 ,输入 值 经 过 非 线 性 变换 从 输入 层 经 隐 单 
元 逐 层 处 理 , 并 传 向 输出 层 , 每 一 层 神经 元 的 状态 将 影响 到 下 一 层 神经 元 状态 ,如 果 在 输 
出 层 不 能 得 到 期 望 的 输出 , 则 转 入 反 向 传播 ,通过 修改 各 神经 元 权 值 ,使 误差 信号 最 小 。 

对 于 三 层 BP 神经 网 络 , 其 输入 向 量 为 4 一 @ .ts,…,t,) ,输出 向 量 为 C= (ci come 
cm) ,输入 层 为 nn 个 神经 元 ,隐藏 层 为 h 个 神经 元 ,输出 层 为 m 个 神经 元 。n 为 输入 向 量 维 
数 ,m 为 输出 向 量 维 数 ,隐藏 层 的 神经 元 个 数 h 可 认为 与 问题 相关 ,目前 的 研究 结果 还 难 
以 给 出 与 问题 的 类 型 和 规模 之 间 的 函数 关系 。 输 入 层 和 隐藏 层 之 间 、 隐 藏 层 和 输出 层 
之 间 的 连接 权重 在 神经 网 络 的 训练 阶段 ,根据 训练 样本 学 习 得 到 。 给 定 一 段 文本 及 其 特 
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征集 ,输入 层 神经 元 的 个 数 设 定 为 特征 集 的 大 小 ,输出 层 神经 元 的 个 数 设 定 为 类 别 集 的 
大 小 ,定义 该 神经 网 络 的 输入 向 量 第 ;个 分 量 的 值 为 : 当 文本 中 存在 特征 集中 的 第 ;个 特 
征 词 时 万 王 1, 反 之 为 0。 

在 训练 神经 网 络 的 时 候 , 定 义 输出 向 量 第 j 个 输出 值 : 当 文本 属于 类 别 集中 的 第 7 
类 时 c;==1, 反 之 为 0。 

使 用 BP 算法 进行 训练 , 当 网 络 稳 定 下 来 后 ,节点 间 的 权 值 就 作为 文本 分 类 时 的 知 
识 , 利 用 它 完成 文本 分 类 的 任务 。 


3. 基于 规则 的 方法 


1) 决策 树 方法 

决策 树 是 一 种 多 级 分 类 方法 ,利用 树 把 一 个 复杂 的 多 类 别 分 类 问题 转化 为 若干 个 简 
单 的 分 类 问题 来 解决 。 它 采用 分 级 的 形式 ,使 分 类 问题 逐步 得 到 解决 。 另 外 ,决策 树 很 
容易 转化 成 分 类 规则 。 一 般 来 说 ,一 个 决策 树 由 一 个 根 节 点 ,一 组 非 终 止 节点 n; 和 一 
些 终止 节点 1; 组 成 ,可 对 标 以 各 种 类 别 标签 。 有 时 不 同 的 终止 节点 上 可 以 出 现 相 同 的 
类 别 标签 。 如 果 用 了 表示 决策 树 ,那么 ,一 个 决策 树 工 对 应 于 特征 空间 的 一 种 划分 , 它 把 
特征 空间 划分 成 若干 个 区 域 ,在 每 个 区 域 中 , 某 个 类 别 的 样本 占 优势 ,因此 ,可 以 标 以 该 
类 样本 的 类 别 标签 。 

目前 已 经 进行 了 大 量 的 关于 决策 树 分 类 研究 工作 ,这 些 研究 工作 涉及 决策 树 推导 、 
决策 树 属性 选择 、 决 策 树 裁剪 、 由 决策 树 抽取 分 类 规则 、 提 高 决策 效率 、 提 高 决策 树 的 扩 
展 性 等 ,并 开发 了 很 多 基于 决策 树 的 分 类 算法 和 系统 等 。 

2) 基于 关联 规则 的 分 类 法 

迄今 为 止 ,基于 关联 规则 分 类 方法 的 研究 还 不 是 太 多 ,为 人 们 所 知晓 的 有 三 个 典型 
的 基于 关联 规则 的 分 类 方法 : 关联 规则 聚 类 系统 (Association Rule Clustering System. 
ARCS) .关联 性 分 类 和 聚合 模式 分 类 (Classification by Aggregating Patterns,CAEP) 。 

ARCS 方法 首先 使 用 聚 类 技术 获得 关联 规则 ,然后 使 用 这 些 规则 进行 分 类 。 

关联 性 分 类 中 挖掘 的 规则 的 形式 为 : 

condest?y 

其 中 ,condset 是 一 组 属性 名 和 值 对 的 集合 ,y 是 类 别 标签 。 满 足 最 小 支持 度 的 规则 被 认 
为 是 频繁 的 ,满足 最 小 可 信任 的 规则 被 认为 是 准确 的 。 假 如 一 组 规则 含有 相同 的 
condset ,那么 具有 最 高 可 信 度 的 规则 被 选 出 作为 可 能 规则 (Possible Rule. PRO ,并 代表 这 
组 规则 。 关 联 性 分 类 方法 包括 两 个 阶段 :第 一 阶段 ,寻找 所 有 了 既 频 繁 、 又 准确 的 PR 的 集 
合 ;第 二 阶段 ,利用 已 发 现 的 PR, 采 用 一 个 启发 式 方法 来 组 建 。 

CAEP 使 用 子 集 支 持 度 的 概念 ,来 挖掘 新 兴 模 式 , 并 用 新 兴 模 式 来 组 建 分 类 器 。 

3) 粗糙 集 

粗糙 集 理论 主要 用 于 分 类 过 程 中 发 现 非 准 确 数据 或 噪声 数据 中 的 结构 关系 。 仅 适 
用 于 离散 属性 数据 ,因而 ,连续 属性 的 数据 必须 先进 行 离散 化 处 理 , 才 可 以 基于 粗糙 集 理 
论 进 行 分 类 。 

粗糙 集 理论 基于 在 给 定 的 训练 数据 中 构建 等 价 类 。 就 描述 数据 的 属性 而 言 ,一 个 等 
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价 类 中 的 所 有 数据 样本 是 一 致 的 \ 等 同 的 。 粗 糙 集 能 够 用 于 近似 地 或 “粗略 ?地 定义 这 些 
类 。 对 于 给 定 的 类 C 的 粗糙 集 为 两 个 近似 集合 C 的 下 近似 和 上 近似 (lower and upper 
approximation), C 的 下 近似 中 的 数据 样本 毫 无 疑问 、 绝 对 属于 类 别 C, 而 C 的 上 近似 中 
的 数据 样本 不 能 被 说 明 为 不 属于 类 别 C 。 可 以 为 每 个 类 生成 决策 规则 ,典型 的 情况 是 ,用 
决策 表 来 表示 规则 。 

粗糙 集 还 用 于 降 维 处 理 和 相关 性 分 析 。 寻 找 能 够 描述 给 定数 据 集中 所 有 概念 的 属 
性 的 最 小 集合 是 个 NP 难 问题 ,然而 ,已 经 提出 了 用 于 降低 计算 强度 的 算法 ,例如 ,一 种 算 
法 中 采用 可 辨别 矩阵 (discernibility matrix) 不 是 搜索 整个 训练 集 ,而 是 在 矩阵 中 搜寻 宛 
余 属 性 。 


6.5 文本 隐 写 分 析 技 术 


6.5.1 文本 隐 写 分 析 技 术 概 述 


隐 写 分 析 技 术 (steganalysis) ,或 称 为 隐藏 信息 分 析 技 术 , 是 对 隐 写 术 的 分 析 和 攻击 
技术 的 研究 。 隐 写 分 析 技 术 的 提高 有 利于 防止 隐 写 术 的 非法 应 用 ,可 以 起 到 防止 机 密 资 
料 流失 、 揭 示 非 法 信息 .打击 丽 怖 主义 、 预 防 灾 难 发 生 的 作用 ,从 而 保证 国家 的 安全 和 社 
会 的 稳定 。 对 隐 写 分 析 的 研究 不 仅 具 有 重要 的 应 用 价值 ,还 具有 重要 的 学 术 意义 。 隐 写 
分 析 研 究 可 以 揭示 当前 信息 隐藏 技术 的 缺陷 ,对 信息 隐藏 算法 的 安全 性 进行 测试 与 评 
价 , 这 是 信息 隐藏 技术 发 展 与 完善 的 一 条 有 效 途径 。 

文本 由 于 具有 编码 简单 .使 用 灵活 等 特点 ,已 成 为 互联 网 中 最 常见 的 一 种 信息 载体 。 
大 多 数 的 杂志 、 报 纸 、. 科 学 刊物 和 会 议 都 提供 了 数字 文档 , 随 着 电子 商务 及 电子 政务 的 快 
速 发 展 , 党 政 机 关 、 企 事业 单位 .民间 团体 .国防 .国家 安全 等 部 门将 有 大 量 的 文字 材料 通 
过 互联 网 传输 。 由 于 文本 的 易 传 播 和 易 编 辑 性 ,一些 不 法 分 子 利 用 文本 作 载 体 进 行 隐 项 
通信 。 因 此 文本 隐 写 分 析 技 术 作为 对 抗 文本 信息 隐藏 技术 的 主要 手段 日 益 得 到 重视 与 
发 展 ,其 中 尤 以 文本 隐藏 信息 检测 技术 更 为 重要 。 

文本 隐 写 分 析 技 术 是 针对 文本 隐 写 技术 进行 检测 的 技术 。 目 前 文本 隐 写 分 析 方 式 
可 分 为 如 下 几 类 。 


1. 针对 Mimic 类 型 文本 隐藏 方法 的 检测 


Mimic 模式 由 Peter Wayner 提出 , 它 通过 使 用 一 种 被 称 之 为 Mimic Function 的 处 
理 方法 ,将 要 隐藏 的 秘密 信息 A 进行 伪装 得 到 A“ ,使 得 A’ 与 无 率 信 息 B 具有 相同 的 统计 
特性 ,使 监控 方 的 自动 检测 系统 把 A' 误 判 为 B, 从 而 达到 逃避 检测 ,保障 个 人 私密 通信 和 安 
全 的 目的 。 由 于 该 模式 具有 实现 比较 容易 、 抗 检测 能 力 强 等 优点 , 现 已 成 为 基于 自然 语 
言 处 理 的 文本 隐 写 方法 中 一 种 很 常用 的 模式 。 

D 利用 检测 炉 , 采 用 支持 向 量 机 分 类 的 检测 方法 

利用 检测 炉 ,采用 支持 向 量 机 分 类 的 检测 方法 首先 定义 单词 x 的 score (E:S, = 
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十 ( 站), 其 中 ,表示 文中 单词 的 总 数 .假设 一 篇 文章 中 有 N 个 不 同 的 词 , 定 义 检测 坟 


X. DE = ETT ET EEST 


VARDE) = 3s (los &-rE) 

将 DE 和 VAR(DE) 作 为 特征 ,采用 支持 向 量 机 分 类 。 这 种 方法 可 以 检测 采用 了 
Nicetext 和 Texto 等 隐 写 工具 隐藏 的 信息 。 

2) 利用 分 布 度 , 基 于 支持 向 量 机 的 检测 方法 

利用 分 布 度 ,基于 支持 向 量 机 的 检测 方法 提出 ,对 于 自然 文本 , 某 个 重复 的 单词 通常 
有 着 不 平衡 的 分 布 ,也 就 是 说 ,这 些 重 复 单词 出 现 的 地 方 一 般 比 较 集中 ,而 对 于 隐 写 文本 
来 说 ,这 些 位 置 具 有 随机 性 ,相对 分 散 。 假 设 一 篇 文章 中 的 单词 序列 为 S= {wo ,tw sns 
o, ,单词 wu 的 位 置 定义 为 el 一 六 ,假设 单词 o HER CON vos ,定义 单词 wa 的 分 


布 度 ; 
SD(w) = x (Èw 一 Avg(w)) 
其 中 ,AvgCw) = È D vlu e 计算 一 篇 文章 分 布 度 的 均值 和 方差 ， 


SD = 


iM: 


[| 
o 


SD(w) 到 
n 


VAR(SD) = È sD- SD) m 
作为 支持 向 量 机 的 输入 特征 ,一 次 区 分 正常 文本 和 隐 写 文本 。 
3) 基于 建立 语言 统计 模型 的 检测 方法 
计算 个 词 连续 出 现 的 最 大 似 然 概 率 : PC, os enne) muet ,然后 计算 
篇 文章 的 P 值 : 


P(w) 


II PG; | M 
根据 PP 值 的 不 同 区 分 正常 文本 和 隐 写 文本 。 

4) 基于 句 间 相关 性 度量 判断 法 

基于 句 间 相 关 性 度量 判断 法 对 现在 比较 流行 的 语义 隐藏 算法 弱点 进行 分 析 , 总 结 出 
两 种 导致 语义 隐藏 技术 泄露 的 情况 :掩体 文本 选择 不 当 和 嵌入 文本 信息 容量 较 大 。 如 果 
选择 的 文本 载体 中 含有 一 些 术 语 或 限定 性 很 强 的 词 ,由 于 这 些 词 与 所 在 的 短语 或 句子 紧 
密 相连 ,稍微 改动 语序 或 替换 词语 都 将 使 得 原 有 句子 含义 发 生变 化 甚至 不 可 理解 。 嵌 入 
文本 越 多 导致 产生 的 隐 写 文本 也 就 越 多 ,进而 导致 一 个 句子 的 掩体 文本 已 经 无 法 容纳 垦 
入 文本 。 由 于 掩体 文本 的 句子 是 独立 产生 的 因此 句子 间 不 相关 或 相关 性 很 弱 , 从 而 导致 
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隐藏 信息 的 暴露 。 根 据 这 些 分 析 , 作 者 首先 通过 概念 图 中 的 最 大 连接 匹配 得 出 的 最 大 连 
接 数 的 值 与 相 容 节点 值 累 加 得 到 句 间 相关 性 度量 ,然后 根据 设 定 的 门限 判断 是 否 有 隐藏 
信息 存在 。 

5) 基于 首 字 母 分 布 的 检测 方法 

基于 首 字 母 分 布 的 检测 方法 由 公式 

a= if LAG — f | 

计算 出 a 并 通过 a KHER EBAR ER. fo GOL 户 (CGD) 分 别 为 待 检测 文本 与 字典 
中 首 字母 序号 为 i 的 所 有 单词 的 出 现 频率 。 该 方法 认为 :因为 租 入 的 秘密 信息 是 伪 随 机 
的 ,那么 如 果 使 用 某 个 字典 D 隐藏 信息 后 得 到 了 隐 写 文本 工 , 则 T 中 单词 出 现 的 频率 必 
JR 55 D 中 的 单词 频率 接近 ,T 中 单词 按 首 字母 序号 分 类 后 每 类 的 频率 应 该 也 与 
D 中 的 单词 对 应 类 的 频率 近似 , 即 应 该 有 fr~ fp CD € [1.26 ] CHOR 8388 a 值 应 
该 比较 大 ;而 自然 语言 文本 中 的 单词 频率 则 会 与 字典 D 中 对 应 的 单词 频率 相差 较 远 ,此 
时 求 得 的 a 值 应 该 相对 较 小 ;所 以 如 果 a 大 于 某 个 闭 值 则 可 以 认为 是 隐 写 文本 。 

6) 基于 文本 剩余 度 的 检测 方法 

基于 文本 剩余 度 的 检测 方法 把 文本 作为 m 阶 时 齐 马尔 可 夫 信 源 ,文本 中 的 单词 作为 
信 源 符号 ,用 m 阶 时 齐 马 尔 可 夫 信 源 的 特性 计算 得 到 这 个 文本 中 连续 wm 个 单词 之 间 的 
一 些 相关 特性 ,然后 根据 mimic 模式 产生 的 隐 写 文本 的 文本 剩余 度 比 正常 文本 高 这 一 规 
律 对 文本 进行 检测 。 


2. 针对 基于 同义词 替换 的 文本 隐藏 方法 的 检测 


1) 基于 支持 向 量 机 的 文本 隐藏 信息 检测 方法 

基于 支持 向 量 机 的 文本 隐藏 信息 检测 方法 ,首先 通过 训练 正常 文本 和 使 用 基于 同 义 
词 替换 的 文本 隐 写 方法 嵌入 秘密 信息 后 的 隐 写 文本 的 语言 模型 来 获取 正常 文本 和 隐 写 
文本 的 模式 ;然后 ,基于 从 语言 模型 获得 的 统计 输出 训练 一 个 支持 向 量 机 分 类 器 ;最 后 ， 
对 于 一 个 给 定 的 文本 ,可 以 基于 这 个 SVM 分 类 器 的 输出 来 确定 是 否 是 使 用 基于 同义词 
替换 的 文本 隐 写 方法 戏 入 了 隐藏 信息 的 文本 。 

2) 利用 Internet 统计 上 下 文 搭配 的 方法 

利用 Internet 统计 上 下 文 搭配 的 方法 首先 定义 包含 单词 w 的 文本 数量 CF(w) 以 及 


包含 集合 S 中 的 所 有 的 单词 的 文本 数 CF(S) ;然后 定义 适合 度 : ST(w,C) 一 In 一 . 


CF(w,C) ;最 后 将 适合 度 的 均值 和 方差 作为 支持 向 量 机 的 特征 ,对 正常 文本 和 隐 写 文本 
分 类 。 

3) 基于 分 析 文 本 中 同义词 结对 值 来 进行 这 类 隐藏 信息 的 检测 

首先 把 任 一 文本 D 中 所 有 表示 语义 y 的 词 按 在 D 中 的 出 现 顺序 排列 ,得 到 一 个 长 
H L 的 序列 mi ,wz，… wi, 如果 1273 90] AER w ws yz 天 ru 构成 一 个 新 序列 wo， 
vs ert eoa ,如 果 在 这 个 新 序列 中 有 w- hw; wea wi Gh i€ [1.171] JU fx 
本 了 中 在 一 个 S, 下 的 同义词 结对 。 文 本 中 的 同义词 结对 总 数 称 为 了 中 的 同义词 结 
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对 值 。 然 后 分 析 得 出 结论 : 隐 写 文本 的 结对 值 要 大 于 正常 文本 。 因 此 ,根据 一 篇 文本 的 
结对 值 ,我 们 可 以 判断 它 是 隐 写 文本 还 是 正常 文本 。 

当前 文本 隐藏 信息 检测 技术 往往 存在 以 下 缺点 : 

CD 难以 检测 基于 自然 语言 处 理 技术 的 文本 隐 写 方法 。 由 于 基于 自然 语言 处 理 技术 
的 文本 隐 写 方法 的 特殊 性 ,对 基于 自然 语言 处 理 技术 的 文本 隐 写 方法 的 检测 比较 困难 。 
现 有 的 检测 方法 一 般 是 依靠 自然 语言 处 理 技术 ,使 用 庞大 的 语料库 来 分 析 被 检测 文本 与 
自然 语言 文本 的 近似 程度 ,通常 不 仅 实现 难度 比较 大 ,而 且 由 于 目前 自然 语言 处 理 技术 
并 不 完善 ,使 得 这 些 检测 方法 受 自然 语言 处 理 技术 的 干扰 比较 大 ,往往 难以 取得 较 好 的 
结果 。 

(2) 难以 发 现 大 文本 载体 中 的 小 隐藏 信息 。 这 是 所 有 隐藏 信息 检测 中 都 存在 的 现 
象 ,大 载体 中 的 小 隐藏 信息 容易 被 载体 本 身 的 干扰 信息 掩盖 ,所 以 通常 难以 检测 。 

(3) 有 些 检测 算法 缺乏 实用 性 。 例 如 美国 普 渡 大 学 信息 安全 教育 与 研究 中 心 提 出 的 
基于 支持 向 量 机 的 文本 隐藏 信息 检测 方法 ,虽然 进行 了 实现 ,但 是 该 方法 实现 难度 高 ,而 
且 能 够 提供 的 数据 有 限 , 所 以 其 他 人 难以 重复 该 实验 ;还 有 一 些 检 测算 法 由 于 成 功率 偏 
低 而 缺乏 实用 价值 。 

(4) 检测 方法 的 通用 性 不 强 。 当 前 文本 隐藏 信息 检测 技术 通常 是 针对 某 一 种 具体 的 
文本 隐 写 方法 而 言 的 ,甚至 是 针对 某 一 个 具体 的 文本 隐 写 工具 软件 而 言 的 ,能 检测 的 文 
本 隐 写 方法 比较 单一 ,缺乏 通用 性 。 但 是 随 着 文本 隐 写 方法 的 增多 ,如 何 能 用 尽 可 能 少 
的 检测 方法 检测 到 尽 可 能 多 的 隐 写 方法 就 变 得 越 来 越 重 要 ,因为 如 果 对 于 每 种 不 同 的 隐 
写 方法 都 使 用 不 同 的 检测 算法 的 话 ,多 种 检测 方法 集成 在 一 起 使 用 时 总 体 虚 警 率 有 可 能 
会 存在 累加 情况 ,从 而 导致 检测 系统 的 总 体 虚 警 率 居 高 不 下 。 

(5) 往往 只 考虑 了 文本 隐 写 分 析 中 的 检测 ,而 没有 考虑 到 文本 隐 写 分 析 中 的 提取 与 
恢复 。 


6.5.2 典型 的 文本 隐 写 分 析 方 法 


基于 同义词 替换 的 文本 隐 写 方法 是 文本 隐 写 中 的 一 种 典型 方法 , 它 可 以 通过 对 载体 
中 的 同义词 进行 有 选择 的 替换 来 嵌入 隐藏 信息 ,该 方法 嵌入 隐藏 信息 后 会 导致 载体 文本 
中 同义词 结对 概率 的 明显 增加 。 基 于 此 ,本 节 介绍 一 种 通过 分 析 文 本 中 同义词 结对 值 来 
进行 隐藏 信息 检测 的 方法 。 

对 于 普通 的 自然 语言 文本 ,其 中 的 词 通常 可 以 用 对 应 的 同义词 替换 掉 , 这 种 替换 婚 
不 会 引起 该 文 意义 的 明显 改变 ,也 不 会 对 该 文 的 句法 结构 造成 任何 影响 。 基 于 同义词 替 
换 的 文本 隐 写 方法 就 是 利用 这 个 特性 ,在 文本 中 通过 对 选择 的 同义词 进行 替换 来 嵌入 隐 
藏 信息 。 

对 于 任 一 文本 D, 把 D 中 所 有 表示 语义 y 的 词 按 在 D 中 的 出 现 顺序 排列 ,得 到 一 个 
长 为 7 的 序列 wi sw st ,wi ,如 果 /三 3, 则 另 任 取 w Aw h ELD, WK 
本 D PE w: 处 存在 一 个 S, 下 的 同义词 结对 。 

ik WL 为 文本 所 属 语种 包含 的 所 有 词 ;M(z) 为 zx 的 词义 ,其 中 zxEW。 设 有 集合 满 
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Æ S,— (x | MGOE y. € ML), 则 称 S, 为 一 个 词义 为 y 的 同义词 组 ,该 组 中 包含 了 1S,| 
个 具有 相同 或 相近 的 词 ;: 即 同义词 组 为 具有 相同 或 相近 意义 的 一 组 词 的 集合 。 选 定 = 个 
不 同 的 同义词 组 组 成 集合 DB, 即 DB 二 {Si ,Sy ,…,S, ) ,对 每 个 同义词 组 中 的 词 进 行 编 
码 。 这 里 DB 就 称 为 一 个 同义词 库 。 


1. RATE 


AK Mi A, EIS PRU EE HR A THERE I fr PERI d] w, BE M Cu =k, W «e 所 属 的 同 义 
FHH S, CS, € DB) i ve 在 Se 中 对 应 的 编码 为 c, 需 要 嵌入 在 该 位 置 的 数据 为 d; 如 果 
cz-d We S, 中 找到 编码 为 d 的 词 w', 并 用 w' 在 载体 中 当前 位 置 蔡 换 掉 w, 如 果 cd 
则 不 进行 替换 ;继续 查找 和 替换 下 一 个 需要 嵌入 的 位 置 ; 直 到 嵌 和 人 结束 。 


2. 提取 过 程 


依据 提取 算法 找到 需要 提取 的 数据 对 应 位 置 的 词 mm, 设 MC) =k ṢE w TE S, 中 的 
编码 c 作为 该 位 置 的 提取 数据 ;继续 查找 和 提取 下 一 个 需要 提取 的 位 置 ; 直 到 提取 结束 。 
当前 已 有 的 基于 同义词 替换 的 文本 隐 写 算法 的 嵌入 与 提取 基本 上 都 可 以 用 上 面 这 个 内 
入 与 提取 过 程 描述 。 


3. 基于 同义词 替换 的 文本 信息 隐藏 方法 的 检测 算法 


首先 提出 的 是 文本 中 同义词 结对 值 的 获取 算法 ,然后 在 此 基础 上 将 提出 一 种 基于 同 
义 词 替换 的 文本 信息 隐藏 方法 的 检测 算法 。 

1) 结对 值 的 获取 算法 

输入 : 待 检测 的 文本 D EXE DB. 

输出 : 文本 D 中 的 同义词 结对 值 。 

CD 使 用 分 词 系统 得 到 D 经 过 分 词 后 的 词 的 序列 W —W, Wi ,Www ,其 中 ,num 
为 分 词 后 词 的 总 数 ,; 一 0,z 一 0。 

© 如 果 i> num, M kA O; RO W; 在 DB 中 对 应 的 组 名 : TName = 
FindInDb(W,); 如 果 DB 中 存在 W;, 则 进入 步骤 @ ,否则 ;一 ;十 1, 重 复 本 步骤 。 

O 临时 记录 表 TT 中 包含 的 序列 数 为 2 计算 k= FindIndexInTT (TName) ; Al $ 
kEL0,n 一 1], 则 Team, 为 临时 记录 表 TT 中 Tname 对 应 的 序列 ;如 果 &—0. NJ =n, 
并 在 TT 中 新 建 一 个 序列 Team, 与 这 个 TName 对 应 ," 一 ”十 1。 

将 W: 添加 到 Team, 尾部 ;i 二 i 十 1, 转 到 步骤 @。 

@ 依次 对 TT 中 的 每 个 Team, 进行 结对 值 统计 分 别 得 到 gx ,其 中 EL[L0,n 一 1]。 


O 返回 待 检测 的 文本 D 的 结对 值 为 NSPp = Sg. 
由 离散 型 随机 变量 的 分 布 函 数 ; 
F(z) = p< 3) = Mp — x) 
可 得 到 文本 中 同义词 结对 值 分 布 由 线 。 | 
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在 任 一 文本 D 中 ,如 果 出 现 了 某 组 同义词 S, 下 的 结对 ,那么 该 组 同义词 称 为 D 中 


的 结对 相关 组 。 文 本 D 中 结对 相关 组 的 数量 称 为 D 中 的 结对 相关 组 数 。 


2) 基于 同义词 替换 的 文本 信息 隐藏 方法 的 检测 算法 

输入 : 待 检测 的 文本 D. 

输出 : 是 否 包含 隐藏 信息 。 

由 结对 值 的 获取 算法 可 知 文本 D. 中 出 现 同义词 的 总 组 数 No 二 nn; 而 文本 D 中 结对 


m1 
相关 组 数 为 : Co = > ) sgn (g) WR CCo / No) 三 co, 则 返回 结果 为 True, 和 否则 返回 结果 为 
m 


False, 


6. 
6. 
6. 
6. 
6. 
6. 


1 
2 
3 
4 
5 
6 


思 5 题 


简 述 自然 文本 的 分 布 特征 及 常见 的 自然 语言 处 理 技术 。 
简 述 文本 数字 水 印 常见 算法 。 

简 述 文本 隐 写 术 与 水 印 技术 的 异同 。 

什么 是 文本 过 滤 和 文本 分 类 ? 二 者 之 间 有 什么 联系 ? 
谈 谈 你 对 文本 隐 写 分 析 的 理解 。 

如 何 实现 对 文本 内 容 的 加 密 ? 
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D TES A ION 
数字 图 像 内 容 安全 


本 章 学 习 目标 

数字 图 像 是 最 为 常见 的 数字 内 容 之 一 ,本 章 将 针对 数字 图 像 的 特点 ,介绍 数字 图 像 
以 及 数字 图 像 内 容 的 相关 概念 ,对 数字 图 像 加 密 技 术 、 数 字 图 像 水 印 技术 以 及 数字 图 像 
隐 写 分 析 技 术 进 行 深入 的 阐述 。 

通过 本 章 的 学 习 , 应 掌握 以 下 内 容 : 

(1) 数字 图 像 及 数字 图 像 内 容 安全 的 相关 概念 。 

(2) 数字 图 像 编码 方式 。 

(3) 数字 图 像 加 密 技术 。 

COD 数字 图 像 水 印 技 术 。 

C) 数字 图 像 隐 写 分 析 技 术 。 


7.1 数字 图 像 内 容 安 全 基本 概念 


7.1.1 数字 图 像 的 概念 、 分 类 及 特点 
1. 图 像 ,图 形 和 数字 图 像 


1) 图 像 与 图 形 

图 像 是 当前 最 为 常见 的 信息 表达 方法 之 一 , 它 是 对 客观 世界 的 反映 。“ 图 ”是 指 物体 
透射 或 反射 光 的 分 布 。 图 像 既 是 一 种 光 的 分 布 ,也 包含 人 的 视觉 心理 因素 。 图 像 的 最 初 
取得 是 通过 对 物体 和 背景 的 “摄取 ”。 这 里 的 “摄取 ” 即 意 味 着 一 种 “记录 ”过 程 ,如 照相 、 
摄像 .扫描 等 ,这 是 图 像 和 图 形 的 主要 区 别 。 人 们 对 图 像 是 很 熟悉 的 ,生活 中 人 们 很 容易 
说 出 哪些 东西 是 图 像 ,图 像 是 人 对 视觉 感知 的 物质 的 再 现 。 图像 可 以 由 光学 设备 获取 ， 
如 照相 机 、 镜 子 、 望 远 镜 、 显 微 镜 等 ;也 可 以 人 为 创作 ,如 手工 绘画 、 计 算 软 件 生成 图 像 等 。 

图 形 是 用 数学 规则 产生 的 或 具有 一 定 规则 的 图 案 。 图 形 往 往 是 用 一 组 符号 或 线条 
来 表示 的 。 例 如 房屋 设计 图 ,我 们 是 用 线条 来 表示 房屋 的 结构 。 

2) 数字 图 像 

任意 一 幅 数字 图 像 粗 看 起 来 似乎 是 连续 的 ,实际 上 是 不 连续 的 , 它 由 许多 密集 的 细 
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小 点 所 组 成 ,这 些 细 点 构成 一 幅 图 像 的 基本 单元 , 称 为 像素 。 就 像 任何 物质 一 样 , 肉 眼看 
上 去 是 连续 的 ,但 实质 上 都 是 由 一 个 一 个 分 子 组 成 。 显 然 点 越 多 ,像素 越 多 ,画面 就 越 清 
晰 。 日 常 所 见 的 图 像 许多 是 连续 的 ,为 了 能 用 计算 机 对 图 像 进 行 加 工 , 需 要 把 连续 的 图 
像 在 坐标 空间 XY 和 性 质 空间 下 都 离散 化 。 这 种 离散 化 的 图 像 就 是 数字 图 像 , 它 是 客观 
事物 的 可 视 数字 化 的 表达 。 数 字 图 像 可 用 ICO RRR. IEP, I rc 的 值 都 是 整数 。 这 
里 工 代表 离散 化 后 的 下 ,Cr,c) 代 表 离 散 化 后 的 (z,y) ,其 中 ,r 代表 图 像 的 行 ,c 代表 图 像 
的 列 。 


2. 数字 图 像 的 表示 方式 


D 图 像 的 矩阵 和 矢量 表示 
一 幅 2D 图 像 可 以 用 一 个 2D 数组 f(z,y) 来 表示 。 实 际 中 还 常 将 一 幅 2D 图 像 写成 
一 个 2D 的 MXN 和 矩阵 (其 中 M 和 NN 分 别 为 图 像 的 总 行 数 和 总 列 数 )。 
fu fe fi 
fn n ze ini (7-1) 
fm fma cto fus 
一 幅 2D 图 像 也 可 以 用 矢量 来 表示 ,可 写成 ， 
F=f fs = fx] (7-2) 
其 中 ， 
fi— [fe fu jn 1] 一 1,2…,N (7-3) 
上 述 两 种 表示 形式 可 以 方便 地 互相 转换 。 对 于 MX N 像素 的 彩色 图 像 , 可 以 用 三 个 
矩阵 表示 : [Fr dux 、LFe ]ux v 、LFsjmxn ,其 中 R、G、B 代表 彩色 图 像 的 三 个 基本 的 颜色 
2) 数字 图 像 的 种 类 和 显示 方式 
每 个 图 像 的 像素 通常 都 对 应 于 二 维 空间 中 一 个 特定 的 位 置 , 并 且 由 一 个 或 者 多 个 与 
那个 点 相关 的 采样 值 组 成 数值 。 根 据 这 些 采 样 数目 及 特性 的 不 同 数字 图 像 可 以 划分 为 
二 值 图 像 . 灰 度 图 像 和 彩色 图 像 。 二 值 图 像 Cbinary image) 中 每 个 像素 的 亮度 值 
(intensity) 仅 可 取 0 和 1。 灰 度 图 像 Cgray scale image) 中 每 个 像素 可 以 由 0( 黑 ) 一 
255( 白 ) 的 亮度 值 表 示 。0 一 255 之 间 表示 不 同 的 灰 度 级 。 彩 色 图 像 (color image) , B 4$ 
幅 彩 色 图 像 是 由 三 幅 不 同 颜色 的 灰 度 图 像 组 合 而 成 ,分 别 是 红色 (Red)、 绿 色 (Green) 和 
蓝 色 (Blue) 。 
对 2D 图 像 的 显示 可 以 采用 多 种 形式 .一般 是 将 2D 图 像 看 作 在 2D 空间 位 置 上 的 一 
种 幅度 分 布 。 根 据 图 像 的 不 同 ,采取 的 显示 方式 也 可 不 同 。 例 如 对 二 值 图 像 ,在 每 个 空 
间 位 置 的 取 值 只 有 两 个 ,可 用 黑白 来 区 别 ,也 可 用 0 和 1 来 区 别 ,如 图 7-1 所 示 。 
在 图 中 ,各 种 方式 表示 的 都 是 一 个 4X4 的 二 值 图 像 , 一 般 说 这 幅 图 像 的 空间 分 辩 率 
是 4X4, 也 就 是 说 这 幅 图 像 在 空间 有 4X4 二 16 个 位 置 可 显示 独立 的 灰 度 。 
3) 数字 图 像 的 格式 
数字 图 像 的 格式 是 人 们 保存 图 像 的 一 种 方式 或 形式 。 目 前 比较 流行 的 图 像 格式 包 
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Qi osssnusna 


H 


(a) 方式 1 (b) 方式 2 (c) 方式 3 
图 7-1 3 种 表达 同一 个 4X4 的 二 值 图 像 矩 阵 的 可 视 方式 


ur 
一 一 
ej-|jejo 


0 0 
1 0 
1 1 
0 0 


elo!e|je 


括 光 栅 图 像 格 式 BMP,GIF,JPEG,PNG 等 ,以 及 矢量 图 像 格 式 WMF、SVG 等 。 其 中 数 
码 相 机 的 保存 格式 大 多 是 JPEG 格式 ,大 多 数 浏览 器 都 支持 GIF JPG 以 及 PNG 图 像 的 
直接 显示 。 而 矢量 图 像 却 通常 需要 专门 的 软件 才能 显示 ,其 中 SVG 格式 作为 W3C 的 标 
准 格式 在 网 络 上 的 应 用 越 来 越 广 。 但 是 ,并 不 是 所 有 图 像 格式 都 适合 进行 数字 图 像 处 
理 , 例 如 ,GIF 是 经 过 压缩 的 图 像 格式 ,在 很 多 情况 下 都 不 适合 进行 数字 图 像 处 理 。 进 行 
数字 图 像 处 理 的 前 提 是 图 像 必须 是 未 经 过 压缩 的 ,最 常见 的 BMP 格式 是 未 经 压缩 的 ,所 
以 适合 作为 处 理 对 象 。 压 缩 图 像 必须 经 过 解压 缩 还 原 成 BMP 图 像 才能 用 于 数字 图 像 
处 理 。 


3. 数字 图 像 的 性 质 与 特点 


像素 ( 像 元 ) 是 数字 图 像 最 基本 的 单位 ,是 成 像 过 程 的 采样 点 ,也 是 计算 机 图 像 处 理 
的 最 小 单元 。 

通常 ,数字 图 像 具 有 以 下 特点 : 

CD 图 像 数 据 信 息 量 很 大 。 例 如 取 512X512 个 像素 组 成 一 幅 数 字 图 像 , 如 其 灰 度 级 
用 8 比特 的 二 进 制 来 表示 , 则 有 2 —256 个 灰 度 级 ,那么 这 幅 图 像 的 数据 信息 量 即 为 
512X512X8— 2097152 比特 。 若 是 彩色 图 像 ,数据 量 会 更 大 。 对 这 样 大 数据 量 的 图 像 进 
行 处 理 , 必 须 使 用 大 内 存 的 计算 机 才能 胜任 。 如 果 计 算 机 的 性 能 达 不 到 一 定 的 要 求 , 则 
无 法 有 效 处 理 数字 图 像 。 

(2) 数字 图 像 占用 的 频带 较 宽 。 与 语言 信息 相 比 ,占用 的 频带 要 大 几 个 数量 级 。 如 
电视 图 像 的 带宽 为 5. 6MHz, 而 语言 带宽 仅 为 4kHz 左右 。 频 带 越 宽 ,技术 实现 的 难度 就 
越 大 ,成 本 亦 越 高 ,为 此 对 频带 压缩 技术 提出 了 较 高 的 要 求 。 

(3) 数字 图 像 中 各 个 像素 不 是 独立 的 ,其 相关 性 很 大 。 也 就 是 说 ,在 图 像 中 通常 有 大 
块 区 域 的 灰 度 值 是 相差 不 大 的 。 例 如 在 一 幅 数字 电视 图 像 中 ,同一 行 中 相 邻 两 个 像素 或 
相 邻 两 行 的 像素 ,其 相关 系数 可 达 0. 9, 而 相 邻 两 帧 电视 图 像 之 间 的 相关 性 比 帧 内 相关 性 
还 要 大 一 些 ,因此 图 像 信息 的 宛 余 度 很 大 。 

(4) 数字 图 像 是 需要 给 人 观察 和 评价 的 ,因此 效果 的 好 坏 受 人 的 因素 影响 较 大 。 由 
于 人 的 视觉 系统 比较 复杂 .数字 图 像 受 环境 条 件 、 视 觉 性 能 、 人 的 主观 意识 的 影响 很 大 ， 
因此 要 求 系统 与 人 必须 有 良好 的 配合 ,这 还 是 一 个 很 大 的 研究 课题 。 


7.1.2 数字 图 像 的 编码 方式 
随 着 各 种 现代 化 技术 的 不 断 发 展 ,图 像 信息 已 变 为 众多 应 用 领域 的 重要 处 理 对 象 ， 
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怎样 充分 利用 信道 传输 有 用 的 图 像 信息 就 成 了 一 个 现实 问题 。 如 果 要 对 原始 图 像 进行 
存储 、 记 录 和 传输 ,那么 必须 要 对 数字 图 像 的 信息 进行 有 效 的 压缩 。 随 着 各 种 技术 的 不 
断 发 展 ,数字 图 像 的 数据 压缩 在 数字 图 像 传 输 中 发 挥 着 关键 性 的 作用 。 


1. 图 像 编 码 的 基本 原理 


虽然 表示 图 像 需 要 大 量 的 数据 ,但 是 图 像 数 据 是 高 度 相关 的 ,或 者 说 存在 元 余 信息 ， 
去 掉 这 些 信息 后 可 以 有 效 压缩 图 像 ,同时 不 会 损害 图 像 的 有 效 信息 。 数 字 图 像 的 元 余 主 
要 表现 为 以 下 几 种 形式 : 空间 元 余 、 时 间 元 余 、 视 觉 元 余 、 信 息 炉 元 余 、 结 构 元 余 和 知识 元 
余 。 图 像 数 据 的 这 些 元 余 信息 为 图 像 压缩 编码 提供 了 依据 。 图 像 编 码 的 目的 就 是 为 了 
充分 利用 图 像 中 存在 的 各 种 元 余 信 息 ,特别 是 空间 元 余 , 时 间 元 余 以 及 视觉 元 余 ,以 尽量 
少 的 比特 数 来 表示 图 像 。 利 用 各 种 元 余 信息 ,压缩 编码 技术 能 够 很 好 地 解决 将 模拟 信号 
转换 为 数字 信号 后 所 产生 的 带宽 需求 增加 的 问题 , 它 是 推动 数字 信号 走 上 实用 化 的 关键 
ERZ, 

图 像 编码 主要 是 利用 图 像 信号 的 统计 特性 以 及 人 类 视觉 的 生理 学 及 心理 学 特性 ,对 
图 像 信号 进行 高 效 编码 , 即 研究 数据 压缩 技术 的 目的 是 在 保证 图 像 质量 的 前 提 下 压缩 数 
据 , 便 于 存储 和 传输 ,以 解决 数据 量 大 的 矛盾 。 一 般 来 说 ,图 像 编码 的 目的 有 三 个 : 

CD 减少 数据 存储 量 。 

(2) 降低 数据 率 以 减少 传输 带宽 。 

(3) 压缩 信息 量 , 以 便于 特征 提取 ,为 后 续 识别 做 准备 。 


2. 经 典 的 编码 技术 


经 典 图 像 编 码 技术 根据 编码 原理 可 分 为 炉 编 码 、 预 测 编码 .变换 编码 和 混合 编码 等 。 

IPECE IS 
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给 出 现 概率 较 大 的 符号 赋予 一 个 短 码 子 ,而 给 出 现 概率 较 小 的 符号 赋予 一 个 长 码 字 ,从 
而 使 得 最 终 的 平均 码 长 很 小 。 常 见 的 炉 编码 方法 有 行程 编码 、 霍 夫 曼 编码 和 算术 编 
码 等 。 

(1) 行程 编码 

行程 编码 又 称 行程 长 度 编 码 , 是 一 种 炉 编码 .该 编码 属于 无 损 压 缩编 码 。 对 于 二 值 
图 像 有 效 。 其 基本 原理 是 : 将 具有 相同 值 的 连续 串 用 其 串 长 和 一 个 代表 值 来 代替 ,使 符 
号 长 度 少 于 原始 数据 的 长 度 。 改 变 连续 串 就 称 为 行程 , 串 长 称 为 行程 长 度 。 

例如 ,6666666888888222333355555 的 行程 编码 为 (6,7)(8,6)(2,3)(3,4)(5,5)。 可 
见 ,行程 编码 的 位 数 远 远 少 于 原始 字符 串 的 位 数 。 

行程 编码 分 为 定 长 和 不 定 长 编码 两 种 。 定 长 编码 是 指 编码 的 行程 长 度 所 用 的 二 进 
制 位 数 固定 ,而 变 长 行程 编码 是 指 对 不 同 范围 的 行程 长 度 使 用 不 同位 数 的 二 进 制 位 数 进 
行 编码 。 使 用 变 长 行程 编码 需要 增加 标志 位 来 表明 所 使 用 的 二 进 制 位 数 。 行 程 编码 比 
较 适 合 于 二 值 图 像 的 编码 ,一 般 用 于 量化 后 出 现 大 量 零 系 数 连续 的 场合 ,用 行程 来 表示 
连 零 码 。 行 程 编码 对 传输 差错 很 敏感 .一 位 符号 出 错 就 会 改变 行程 编码 的 长 度 ,使 整个 
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图 像 出 现 偏 移 , 因 此 ,一 般 要 用 行 同步 、 列 同步 的 方法 ,把 差错 控制 在 一 行 一 列 之 内 。 它 
适用 于 那些 包含 很 少 灰 度 级 的 图 像 , 对 单一 颜色 背景 下 物体 的 图 形 图 像 可 以 达到 很 高 的 
压缩 比 ,但 对 其 他 类 型 的 图 像 压缩 比 就 很 低 。 

(2) 霍 夫 曼 编码 

霍 夫 曼 (Huffman) 编 码 是 1952 年 为 文本 文件 而 开发 出 的 一 种 炉 编码 ,属于 无 损 压 缩 
编码 。 该 方法 完全 依据 字符 出 现 的 概率 来 构造 码 字 ,对 频繁 出 现 的 字符 多 使 用 较 短 的 码 
字 , 而 对 出 现 次 数 较 少 的 字符 使 用 较 长 的 码 字 。 在 具有 相同 信 源 概率 分 布 的 前 提 下 , 它 
的 平均 码 字 长 度 是 最 短 的 。 变 长 最 佳 编码 定理 是 霍 夫 曼 编码 的 理论 基础 。 

静态 霍 夫 曼 编码 使 用 一 棵 在 压缩 之 前 就 建 好 的 编码 树 , 它 是 根据 字符 出 现 的 概率 来 
生成 的 。 相 反 , 动 态 霍 夫 曼 编码 是 在 编码 过 程 中 建立 它 的 编码 树 。 具 体 的 方法 是 ,在 分 
配 码 字 长 度 时 ,首先 将 其 中 概率 最 小 的 两 个 符号 的 概率 求 和 ,并 把 它 看 作 是 一 个 新 组 合 
符号 的 概率 ,再 与 其 他 符号 按 概 率 递 降 顺 序 排列 ,重复 上 述 做 法 ,直到 最 后 只 剩 下 两 个 符 
号 的 概率 为 止 。 然 后 开始 以 相反 顺序 逐步 进行 编码 ,每 一 步 有 两 个 概率 分 支 ,各 赋予 一 
个 二 进 制 的 码 。 可 以 对 概率 小 的 赋 编 码 为 0, 概 率 大 赋 1, 也 可 以 反 过 来 赋 编 码 。 这 种 统 
计 方 法 能 够 达到 更 高 的 压缩 比 ,而 且 此 方法 简单 有 效 ,编码 效率 高 。 但 是 ,这 是 以 增 大 编 
码 和 解码 的 时 间 为 代价 的 。 

霍 夫 曼 编码 具有 一 些 明显 的 特点 : 

CD 编 出 来 的 码 都 是 异 字 头 码 , 保 证 了 码 的 唯一 可 译 性 。 

© 由 于 编码 长 度 可 变 ,因此 译 码 时 间 较 长 ,使 得 霍 夫 曼 编码 的 压缩 与 还 原 相 当 费 时 。 

O 编码 长 度 不 统一 ,硬件 实现 有 难度 。 

中 对 不 同 信号 源 的 编码 效率 不 同 , 当 信号 源 的 符号 概率 为 2 的 负 竹 次 方 时 ,达到 
100% 的 编码 效率 ; 若 信 号 源 符号 的 概率 相等 , 则 编码 效率 最 低 。 

C) 由 于 0 与 1 的 指定 是 任意 的 , 故 由 上 述 过 程 编 出 的 最 佳 码 不 是 唯一 的 ,但 其 平均 
码 长 是 一 样 的 , 故 不 影响 编码 效率 与 数据 压缩 性 能 。 

(3) 算术 编码 

算术 编码 是 20 世纪 80 年 代 发 展 起 来 的 一 种 编 码 方法 ,其 基本 原理 是 将 被 编码 的 
数据 序列 表示 成 0 和 1 之 间 的 一 个 间隔 (也 就 是 一 个 小 数 范围 ) ,该 间隔 的 位 置 与 输入 数 
据 的 概率 分 布 有 关 。 信 息 越 长 ,表示 间隔 就 越 小 。 因 而 表示 这 一 间隔 所 需 的 二 进 制 位 数 
就 越 多 。 算 术 编码 有 两 种 模式 : 一 种 是 基于 信 源 概率 统计 特性 的 固定 编码 模式 , 另 一 种 
是 针对 未 知 信 源 概率 模型 的 自 适应 模式 。 

算术 编码 适合 于 由 相同 重复 序列 组 成 的 文件 ,算术 编码 接近 压缩 的 理论 极限 。 这 种 
方法 将 不 同 的 序列 映像 到 0 到 1 之 间 的 区 域内 ,该 区 域 表 示 成 可 变 精度 (位 数 ) 的 二 进 制 
小 数 , 越 不 常见 的 数据 需要 的 精度 越 高 (更 多 的 位 数 ), 这 种 方法 比较 复杂 ,因而 并 不 
常用 。 

2) 预测 编码 

预测 编码 是 基于 图 像 数 据 的 空间 或 时 间 宛 余 特 性 ,用 已 传输 的 像素 对 当前 的 像素 进 
行 预测 ,然后 对 预测 误差 进行 量化 和 编码 。 如 果 预 测 比较 准确 ,误差 就 会 很 小 。 在 同等 
精度 要 求 的 条 件 下 ,就 可 以 用 比较 少 的 比特 进行 编码 ,达到 压缩 数据 的 目的 。 预 测 编码 
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可 以 分 为 一 维 预测 (行内 预测 )、 二 维 预测 ( 帧 内 预测 ) 和 三 维 预测 ( 帧 间 预 测 )。 常 用 的 预 
测 编码 有 差分 脉冲 编码 调制 (DPCM) 和 自 适应 差分 脉冲 编码 调制 (ADPCMD) 等 。 

(1) 差分 脉冲 编码 调制 

在 PCM 系统 中 ,原始 的 模拟 信号 经 过 采样 后 得 到 的 每 一 个 样 值 都 被 量化 成 为 数字 
信号 。 为 了 压缩 数据 ,可 以 不 对 每 一 样 值 都 进行 量化 ,而 是 预测 下 一 样 值 , 并 量化 实际 值 
与 预测 值 之 间 的 差 值 ,这 就 是 DPCM( 差 分 脉冲 编码 调制 )。1952 年 贝尔 (Bell) 实 验 室 的 
C. C. Cutler 取得 了 差分 脉冲 编码 调制 系统 的 专利 ,奠定 了 真正 实用 的 预测 编码 系统 的 基 
础 。 在 图 像 信号 中 应 用 DPCM 时 ,用 作 预 测 的 像素 和 被 预测 的 像素 可 以 在 同一 行 , 也 可 
以 在 不 同行 (同一 帧 ) ,其 至 在 不 同 帧 ,分 别称 为 一 维 预测 、 二 维 预测 和 三 维 预测 。 

DPCM 的 优点 是 算法 简单 ,容易 用 硬件 实现 ,缺点 是 对 信道 噪声 很 敏感 ,会 产生 误差 
扩散 。 即 某 一 位 码 出 错 ,对 图 像 一 维 预测 来 说 ,将 使 该 像素 以 后 的 同一 行 各 个 像素 都 产 
生 误差 ;而 对 二 维 预 测 ,该 码 引 起 的 误差 还 将 扩散 到 以 下 的 各 行 。 这 样 ,将 使 图 像 质量 大 
大 下 降 。 同 时 ,DPCM 的 压缩 率 也 比较 低 。 随 着 变换 编码 的 广泛 应 用 ,DPCM 的 作用 已 
很 有 限 。 

(2) 自 适应 差分 脉冲 编码 调制 

进一步 改善 量化 性 能 或 压缩 数据 率 的 方法 是 采用 自 适 应 量化 或 自 适应 预测 , 即 自 适 
应 脉冲 编码 调制 (ADPCM)。 它 的 核心 想法 是 : 利用 自 适应 的 思想 改变 量化 阶 的 大 小 ， 
即使 用 小 的 量化 阶 去 编码 小 的 差 值 ,使 用 大 的 量化 阶 去 编码 大 的 差 值 ;使 用 过 去 的 样本 
值 估算 下 一 个 输入 样本 的 预测 值 ,使 实际 样本 值 和 预测 值 之 间 的 差 值 总 是 最 小 。 

O 自 适应 量化 。 在 一 定量 化 级 数 下 减少 量化 误差 或 在 同样 的 误差 条 件 下 压缩 数据 ， 
根据 信号 分 布 不 均匀 的 特点 ,希望 系统 具有 随 输入 信号 的 变化 区 间 足 以 保持 输入 量化 器 
的 信号 基本 均匀 的 能 力 , 这 种 能 力 叫 自 适应 量化 。 

自 适应 量化 必须 具有 对 输入 信号 的 幅 值 进行 估 值 的 能 力 , 有 了 估 值 才能 确定 相应 的 
改变 量 。 若 估 值 在 信号 的 输入 端 进行 , 称 前 馈 自 适应 ; 若 在 量化 输出 端 进行 , 称 反馈 自 适 
应 。 信 号 的 估 值 必须 简单 .占用 时 间 短 ,才能 达到 实时 处 理 的 目的 。 

© 自 适应 预测 。 预 测 参数 的 最 佳 化 依赖 信 源 的 特征 ,要 得 到 最 佳 预测 参数 显然 是 一 
件 繁琐 的 工作 。 而 采用 固定 的 预测 参数 往往 又 得 不 到 较 好 的 性 能 。 为 了 能 使 性 能 较 佳 ， 
又 不 至 于 有 太 大 的 工作 量 , 可 以 采用 自 适应 预测 。 

为 了 减少 计算 工作 量 ,预测 参数 仍 采用 固定 的 ,但 此 时 有 多 组 预测 参数 可 供 选 择 ,这 
些 预测 参数 根据 常见 的 信 源 特征 求 得 。 编 码 时 具体 采用 哪 组 预测 参数 需 根据 特征 来 自 
适应 地 确定 。 为 了 自 适应 地 选择 最 佳 参 数 , 通 常 将 信 源 数据 分 区 间 编 码 , 编 码 时 自动 地 
选择 一 组 预测 参数 ,使 实际 值 与 预测 值 的 均 方 误差 最 小 。 随 着 编码 区 间 的 不 同 ,预测 参 
数 自 适 应 地 变化 ,以 达到 准 最 佳 预测 。 

3) 变换 编码 

变换 编码 是 将 空间 域 里 描述 的 图 像 , 通 过 某 种 变换 (常用 的 是 二 维 正 交 变换 ,如 离散 
余弦 变换 ,K-L 变换 等 ) ,映射 到 另 一 变换 域 中 ,使 变换 后 的 系数 之 间 的 相关 性 降低 。 图 
像 变换 本 身 并 不 能 压缩 数据 ,但 变换 后 图 像 的 大 部 分 能 量 只 集中 到 少数 几 个 变换 系数 
上 ,采用 适当 的 量化 和 炉 编 码 可 以 有 效 地 压缩 图 像 。 
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COD K-L 变换 

K-L 变换 是 一 种 最 佳 正 交 变 换 。 它 是 用 数据 本 身 的 相关 矩阵 对 角 化 后 完成 的 ,这 种 
变换 将 产生 完全 不 相关 的 变换 系数 。 如 果 图 像 数据 之 间 是 高 度 相关 的 ,经 过 K-L 变换 后 
的 系数 将 出 现 多 个 零 值 ,同时 某 些 系数 的 值 会 很 小 。 

在 K-L 变换 中 不 同 的 图 像 数据 有 不 同 的 变换 矩阵 ,由 此 造成 反 变换 矩阵 的 不 唯一 
性 ;另外 K-L 变换 矩阵 的 构造 计算 量 很 大 ,因而 它 不 是 一 种 实用 的 变换 方法 ,通常 作为 评 
价 其 他 线性 变换 的 比较 基准 。 

(2) 离散 余弦 变换 (DCT) 

由 于 K-L 变换 算法 复杂 度 较 高 ,所 以 在 实际 编码 工作 中 ,人 们 常用 离散 余弦 变换 。 
对 大 多 数 图 像 信 源 来 说 ,DCT 变换 是 现行 编码 方法 中 最 接近 K-L 变换 的 方法 。 

DCT 先 根据 变换 系数 的 能 量 分 布 ,将 整个 图 像 分 成 NXNN 像素 块 ,然后 对 这 NXN 
像素 块 逐一 进行 DCT 变换 。 其 中 DCT 变换 后 , 幅 值 较 大 的 图 像 系数 大 多 集中 在 图 像 块 
的 左上 和 角 。 与 其 他 系数 相 比 ,这些 低频 系数 包括 了 图 像 的 大 部 分 内 容 , 所 包含 的 能 量 最 
大 ,在 变换 图 像 中 的 地 位 也 最 重要 ,应 使 它们 的 量化 误差 最 小 。 另 一 方面 ,大 多 数 图 像 的 
高 频 分 量 较 小 ,对 图 像 质量 影响 其 微 ,加 上 人 了 眼 对 高 频 成 分 的 失真 不 太 敏感 ,可 以 使 用 更 
粗 的 量化 ,一 般 采 用 设 定 阔 值 的 方法 , 置 小 于 阔 值 的 变换 系数 为 零 . 由 此 传送 变换 系数 所 
用 的 码 率 要 远 远 小 于 传送 图 像 像素 所 用 的 码 率 ,从 而 大 大 提高 了 编码 效率 。 经 区 域 编码 
和 国 值 编码 后 ,变换 图 像 的 系数 大 部 分 为 零 , 可 以 采用 有 效 的 方法 将 非 零 系 数 和 零 系数 
组 织 起 来 ,在 带 有 最 少 宛 余 的 同时 保证 最 大 的 连 零 系 数 的 出 现 概率 ,在 DCT 图 像 编码 
中 ,可 以 对 变换 系数 采用 Z 字形 扫描 。 

4) 混合 编码 

混合 编码 是 指 综 合 了 炉 编 码 、 变 换 编码 或 预测 编码 的 编码 方法 ,如 JPEG 标准 和 
MPEG 标准 等 。 通 过 混合 编码 ,可 以 综合 不 同 编码 方法 的 优势 。 


3. 第 二 代 编 码 技术 


D 分 形 编码 

分 形 编码 是 在 数学 家 Mandelbort 建立 的 分 型 几何 理论 的 基础 上 发 展 起 来 的 一 种 编 
码 方法 。 分 型 编码 最 大 限度 地 利用 了 图 像 在 空间 域 上 的 自 相似 性 ,通过 消除 图 像 的 几何 
元 余 来 压缩 数据 。M. Barnsley 将 迭代 函数 系统 (IFS) 用 于 描述 图 像 的 自 相似 性 ,并 将 其 
用 于 图 像 编 码 。 

对 分 形 定义 的 一 般 描述 如 下 : 

D 分 形 应 有 精细 的 结构 ,有 任意 小 比例 的 细节 。 

© 非常 不 规则 ,以 至 于 其 局 部 和 整体 都 不 能 用 传统 的 几何 语言 来 描述 。 

@ 分 形 通常 有 某 种 自 相 似 的 形式 ,可 能 是 近似 的 或 是 统计 的 。 

D 其 “分 形 维 数 ” 一 般 大 于 其 拓扑 维 数 ,并 且 通 常 能 以 非常 简单 的 方法 定义 ,由 迭代 
方法 产生 。 

分 形 编码 的 方法 是 利用 图 形 处 理 技 术 , 如 颜色 分 割 、 边 缘 检 测 、 频 谱 分 析 等 将 原始 图 
像 分 割 成 若干 子 图 像 ,然后 为 每 个 子 图 像 寻找 迭代 函数 , 子 图 像 以 迭代 函数 的 形式 存储 。 
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于 这 样 的 迭代 函数 一 般 只 需要 几 个 数据 表示 即 可 ,所 以 分 形 压缩 可 以 达到 较 高 的 压 
缩 比 。 

分 形 编码 是 一 种 新 颖 、 独 特 的 压缩 方法 。 它 充分 考虑 了 自然 景物 的 特点 。 其 优点 
是 : 压缩 比 取 决 于 图 像 分 割 后 所 产生 的 子 块 的 大 小 , 子 块 取得 越 大 ,压缩 比 越 高 ;由 于 分 
形变 换 可 把 图 像 划 分 成 大 得 多 、 形 状 复杂 得 多 的 分 区 , 故 压缩 比 不 受 分 辩 率 的 影响 。 其 
缺点 有 : 分 形 编码 是 非 对 称 的 ,压缩 时 计算 量 较 大 ,所 需 时 间 较 长 ,但 解压 缩 速 度 很 快 ; 随 
着 被 压缩 图 像 增 大 ,运算 量 增长 过 快 。 

2) 模型 编码 

基于 模型 的 图 像 编 码 技术 是 近 几 年 发 展 起 来 的 一 种 很 有 前 途 的 低 比特 率 编码 方法 。 
它 利用 了 计算 机 视觉 和 计算 机 图 形 学 中 的 方法 和 理论 ,其 基本 出 发 点 是 在 编 .解码 两 端 
分 别 建立 起 相同 的 模型 ,针对 输入 的 图 像 提 取 模 型 参数 ,然后 根据 模型 参数 重建 图 像 。 
模型 编码 方法 的 核心 是 建 模 和 提取 模型 参数 ,其 中 模型 的 选取 、 描 述 和 建立 是 决定 模型 
编码 质量 的 关键 因素 。 为 了 对 图 像 数据 建 模 ,一 般 要 求 对 输入 图 像 要 有 某 些 先 验 的 知 
识 。 根 据 使 用 的 模型 的 不 同 ,模型 编码 可 以 分 为 语义 基 编 码 和 物体 基 编 码 。 

基于 模型 的 图 像 编 码 方法 是 利用 先 验 模型 来 抽取 图 像 中 的 主要 信息 ,并 以 模型 参数 
的 形式 表示 它们 ,因此 可 以 获得 很 高 的 压缩 比 。 然 而 在 模型 编码 方法 的 研究 中 还 存在 很 
多 问题 ,例如 : 

CD 模型 法 需要 先 验 知识 ,不 适合 一 般 的 应 用 。 

© 对 不 同 的 应 用 所 建 模型 是 不 一 样 的 。 

@ 在 线 框 模型 中 控制 点 的 个 数 不 易 确定 ,还 未 找到 有 效 的 方法 能 根据 图 像 内 容 来 
选取 。 

@ 由 于 利用 模型 法 压缩 后 复原 图 像 的 大 部 分 是 用 图 形 学 的 方法 产生 的 ,因此 看 起 来 
不 够 自然 。 

© 传统 的 误差 评估 准则 不 适合 用 于 对 模型 编码 的 评价 。 

3) 小 波 变换 编码 

小 波 变 换 编码 是 随 着 小 波 变 换 理论 的 研究 而 提出 的 一 种 编码 方式 。 小 波 变 换 的 本 
质 是 多 分 辨 率 或 多 尺度 地 分 析 信 号 ,非常 适合 视觉 系统 对 频率 感知 的 对 数 特 性 ,因此 , 它 
很 适合 于 图 像 信号 的 处 理 。 

小 波 变换 编码 一 方面 具有 传统 编码 方法 的 一 些 优点 ,能 够 很 好 地 消除 统计 元 余 , 另 
一 方面 它 的 多 分 辩 率 特性 充分 利用 了 人 眼 的 视觉 特性 ,而 且 变换 后 的 图 像 数 据 能 够 保持 
原 图 像 在 各 种 分 辩 率 下 的 精细 结构 ,为 进一步 去 除 其 他 形式 的 元 余 提 供 了 便利 。 

小 波 变换 编码 的 核心 问题 是 要 对 子 带 图 像 进行 小 波 系数 的 量化 和 编码 。 低 频 子 带 
图 像 包含 原 图 像 的 大 部 分 能 量 , 即 包含 图 像 的 基本 特性 。 它 在 图 像 重 构 算 法 中 起 主导 作 
用 ,对 重建 图 像 的 质量 有 很 大 影响 ,因此 这 部 分 信号 应 精确 保留 。 

高 频 子 图 像 的 系数 分 布 符合 广义 高 斯 分 布 ,对 其 系数 进行 粗 量化 编码 较为 有 效 。 这 
也 完全 符合 人 的 视觉 特性 ,根据 对 人 眼 视觉 系统 的 特性 可 知 . 人 眼 视觉 灵敏 度 具 有 明显 
的 低 通 特 性 ,而 且 对 不 同方 向 上 的 敏感 度 也 不 一 样 , 尤 其 是 对 倾斜 方向 的 刺激 不 太 敏 感 ， 
如 人 眼 对 对 角 线 方向 子 图 像 系数 误差 敏感 度 较 低 , 因 此 可 对 对 角 线 方向 子 图 像 进行 粗 量 
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化 高 压缩 。 

小 波 变换 后 的 能 量 主 要 集中 在 低频 系数 分 量 , 而 其 他 高 频 系 数 分 量 大 多 为 零 值 ,这 
为 高 倍率 压缩 提供 了 可 能 。 通 过 选择 合适 的 具有 平滑 特性 小 波 基 , 就 可 消除 重建 图 像 中 
出 现 的 方块 效应 , 减 小 量化 噪声 ,获得 较 好 的 重建 图 像 质量 。 用 小 波 分 析 方法 对 图 像 进 
行 编码 时 ,主要 涉及 三 个 方面 的 问题 : 图 像 边界 的 扩展 、 小 波 基 的 选取 和 小 波 系 数 的 组 
织 。 波 变换 编码 压缩 方法 可 分 为 如 下 两 大 类 : 基于 传统 的 图 像 编码 方法 和 基于 分 形 理论 
的 小 波 变 换 图 像 编 码 方法 ;基于 传统 的 图 像 编码 方法 ,包括 零 树 小 波 编 码 、 基 于 塔 式 网 络 
矢量 量化 的 小 波 变换 编码 .基于 LBG 算法 的 小 波 变 换 编码 、 基 于 标量 量化 的 小 波 变换 编 
码 等 。 

针对 分 形 图 像 编 码 尚 存在 的 缺点 ,如 编码 算法 耗 时 .自然 图 像 不 一 定 具有 严格 的 分 
形 结构 而 无 法 达到 预期 的 高 压缩 比 ,高 压缩 倍率 时 的 方块 效应 等 ,有 人 提出 了 基于 小 波 
变换 的 分 形 编码 。 它 具有 以 下 特点 : 

CD 采用 平滑 小 波 可 去 除 传统 分 形变 换 中 存在 的 方块 效应 。 

@ 小 波 表示 使 图 像 的 四 叉 树 分 割 十 分 自然 。 

@ 可 将 零 树 算法 看 成 是 该 算法 的 一 个 特例 。 图 像 经 过 金字 塔 形 离散 小 波 变 换 后 的 
系数 在 小 波 域内 可 组 成 分 层 树 状 数据 结构 小 波 树 。 这 些 跨 越 不 同 分 辩 率 的 小 波 树 之 间 
存在 一 定 的 相似 性 ,可 通过 分 形变 换 来 描述 。 基 于 小 波 变 换 的 分 形 压缩 过 程 就 是 一 个 由 
分 层 树 状 结构 的 项 部 开始 一 层 层 地 向 下 预测 其 余 系统 的 过 程 ,而 这 个 由 上 至 下 、 由 粗 至 
细 的 预测 过 程 是 通过 分 形 编码 来 实现 的 。 

目前 ,小 波 变换 编码 已 获得 了 较 好 的 编码 效果 ,是 现代 图 像 压 缩 技术 研究 的 热点 之 
一 ,也 是 一 种 十 分 有 前 途 的 方法 。 


7.1.3 ”数字 图 像 处 理 技术 


1. 数字 图 像 处 理 的 基本 概况 


20 世纪 20 年 代 , 图 像 处 理 首次 应 用 于 改善 伦敦 和 纽约 之 间 海 底 电缆 发 送 的 图 片 质 
量 。 到 20 世纪 50 年 代 , 数 字 计 算 机 发 展 到 一 定 的 水 平 后 ,数字 图 像 处 理 才 真正 引起 人 
们 的 兴趣 。1964 年 美国 喷气 推进 实验 室 用 计算 机 对 “徘徊 者 七 号 ”太空 船 发 回 的 大 批 月 
球 照片 进行 处 理 , 收 到 了 明显 的 效果 。20 世纪 60 年 代 末 ,数字 图 像 处 理 具备 了 比较 完整 
的 体系 ,形成 了 一 门 新 兴 的 学 科 。20 世纪 70 年 代 , 数 字 图 像 处 理 技术 得 到 迅猛 的 发 展 ， 
理论 和 方法 进一步 完善 ,应 用 范围 更 加 广泛 。 在 这 一 时 期 ,图 像 处 理 主要 和 模式 识别 及 
图 像 理解 系统 的 研究 相 联系 ,如 文字 识别 .医学 图 像 处 理 、 遥 感 图 像 的 处 理 等 。 从 20 世 
纪 70 年 代 后 期 到 现在 ,各 个 应 用 领域 对 数字 图 像 处 理 提 出 越 来 越 高 的 要 求 ,促进 了 这 门 
学 科 向 更 高 级 的 方向 发 展 。 特 别 是 在 景物 理解 和 计算 机 视觉 ( 即 机 器 视觉 ) 方 面 , 图 像 处 
理 已 由 二 维 处 理发 展 到 三 维 理解 或 解释 。 近 年 来 , 随 着 计算 机 和 其 他 各 相关 领域 的 迅速 
发 展 ,例如 在 图 像 表现 .科学 计算 可 视 化 、 多 媒体 计算 技术 等 方面 的 发 展 ,数字 图 像 处 理 
已 从 一 个 专门 的 研究 领域 变 成 了 科学 研究 和 人 机 界面 中 的 一 种 普遍 应 用 的 工具 。 

图 像 处 理 技术 基本 可 以 分 成 两 大 类 : 模拟 图 像 处 理 和 数字 图 像 处 理 。 数 字 图 像 处 理 
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一 般 都 用 计算 机 处 理 或 实时 的 硬件 处 理 ,因此 也 称 之 为 计算 机 图 像 处 理 ,由 于 它 处 理 精 
度 高 ,包含 信息 量 大 ,广泛 应 用 于 空间 探测 、 遥 感 . 生 物 医 学 、 人 工 智能 以 及 工业 检测 等 许 
多 领域 。 数 字 图像 处 理 技术 主要 包括 如 下 内 容 : 几何 处 理 、 算 术 处 理 、 图 像 增强 、 图 像 复 
原 、 图 像 重 建 图 像 编码 .图 像 识 别 . 图 像 理 解 。 数 字 图 像 处 理 技术 的 发 展 涉及 信息 科学 、 
计算 机 科学 .数学 ,物理 学 以 及 生物 学 等 学 科 , 因 此 数理 及 相关 的 边缘 学 科 对 图 像 处 理科 
学 的 发 展 有 越 来 越 大 的 影响 。 近 年 来 ,数字 图 像 处 理 技术 日 趋 成 熟 并 促使 这 些 学 科 也 产 
生 了 新 的 发 展 。 下 面 将 简单 介绍 数字 图 像 处 理学 的 发 展 和 现状 。 


2. 数字 图 像 处 理 的 常用 方法 


D 图 像 变换 

由 于 图 像 阵列 很 大 ,直接 在 空间 域 中 进行 处 理 , 涉 及 计算 量 很 大 。 因 此 ,往往 采用 各 
种 图 像 变 换 的 方法 ,如 傅 里 叶 变 换 、 沃 尔 什 变换 .离散 余弦 变换 等 间接 处 理 技 术 ,将 空间 
域 的 处 理 转换 为 变换 域 处 理 ,不仅 可 减少 计算 量 ,而 且 可 获得 更 有 效 的 处 理 ( 如 传 里 叶 变 
换 可 在 频 域 中 进行 数字 滤波 处 理 ) 。 目 前 新 兴 研 究 的 小 波 变 换 在 时 域 和 频 域 中 都 具有 和 良 
好 的 局 部 化 特性 , 它 在 图 像 处 理 中 也 有 着 广泛 而 有 效 的 应 用 。 

2) 图 像 编 码 压 缩 

图 像 处 理 中 另 一 至 关 重 要 的 问题 是 图 像 数据 的 压缩 。 特 别 是 在 获取 了 大 量 的 静态 
和 动态 图 像 后 ,要 将 其 传输 到 用 户 终 端 或 存储 图 像 以 备 今后 使 用 时 , 遇 到 的 最 大 困难 就 
是 图 像 巨 大 的 数据 量 。 因 此 ,图 像 信息 的 压缩 在 图 像 的 存储 、 传 递 ,乃至 后 面谈 到 的 多 媒 
体 技术 中 都 是 至 关 重 要 的 问题 。 

图 像 编码 压缩 技术 可 减少 描述 图 像 的 数据 量 ( 即 比特 数 ) ,以 便 节省 图 像 传 输 、 处 
理 时 间 和 减少 所 占用 的 存储 器 容量 。 压 缩 可 以 在 不 失真 的 前 提 下 获得 ,也 可 以 在 允许 
的 失真 条 件 下 进行 。 编 码 是 压缩 技术 中 最 重要 的 方法 , 它 在 图 像 处 理 技术 中 是 发 展 最 
早 且 比较 成 熟 的 技术 。 图 像 压 缩编 码 的 研究 有 比较 久远 的 历史 ,直至 目前 , 仍 在 不 断 
探索 新 的 技术 和 方法 。 图 像 压 缩编 码 的 方法 ,主要 是 消除 图 像 存储 过 程 中 产生 的 大 量 
数据 元 余 。 为 了 得 到 较 好 的 结果 ,可 用 预测 编码 .变换 编码 . 焙 编码 等 高 清晰 度 图 像 压 
缩编 码 方法 。 

3) 图 像 增强 和 复原 

图 像 增强 和 复原 的 目的 是 为 了 提高 图 像 的 质量 ,如 去 除 噪声 ,提高 图 像 的 清晰 度 等 。 
图 像 增强 不 考虑 图 像 降 质 的 原因 ,突出 图 像 中 所 感 兴趣 的 部 分 。 如 强化 图 像 高 频 分 量 ， 
可 使 图 像 中 物体 轮廓 清晰 ,细节 明显 ;如 强化 低频 分 量 可 减少 图 像 中 噪声 影响 。 图 像 复 
原 要 求 对 图 像 降 质 的 原因 有 一 定 的 了 解 ,一 般 来 说 应 根据 降 质 过 程 建立 “ 降 质 模型 ,再 
采用 某 种 滤波 方法 ,恢复 或 重建 原来 的 图 像 。 

获取 到 的 图 像 ,通常 带 有 各 种 畸变 和 干扰 。 例 如 有 成 像 器 件 的 缺陷 。 如 带宽 限制 造 
成 图 像 模 糊 、 成 像 过 程 中 不 可 避免 的 热 噪 声 和 其 他 干扰 源 带 来 的 各 种 干扰 噪声 等 ,为 了 
获取 为 人 们 观测 处 理 所 需 要 的 良好 质量 的 图 像 ,需要 引入 图 像 处 理 。 这 包括 图 像 的 增强 
和 图 像 的 复原 。 图 像 的 增强 是 采用 增强 轮廓 边缘 ,进行 灰 度 和 颜色 等 变换 ,使 图 像 更 适 
合 于 人 们 观测 和 处 理 的 需要 。 而 图 像 的 复原 则 是 为 消除 或 减 小 图 像 获 取 和 传输 过 程 中 
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造成 的 图 像 的 损伤 和 退化 ,这 包括 图 像 的 模糊 、 图 像 的 干扰 和 噪声 等 , 尽 可 能 获得 原来 真 
实 的 图 像 。 图 像 复原 往往 是 比较 困难 和 复杂 的 逆 滤 波 过 程 。 尤 其 在 造成 图 像 退 化 的 过 
程 比较 复杂 和 难以 预测 时 ,图 像 复原 就 更 难 了 。 不 论 图 像 的 增强 或 复原 ,都 必须 对 整 幅 
图 像 的 所 有 像素 进行 运算 ,出 于 图 像 像素 的 数量 巨大 ,其 运算 量 也 是 很 大 的 。 

4) 图 像 分 割 

图 像 分 割 是 数字 图 像 处 理 中 的 关键 技术 之 一 。 图 像 分 割 是 将 图 像 中 有 意义 的 特征 
部 分 提取 出 来 ,其 有 意义 的 特征 包括 图 像 的 边缘 和 区 域 等 ,这 是 进一步 进行 图 像 识 别 、 分 
析 和 理解 的 基础 。 虽 然 目 前 已 提出 不 少 边缘 提取 、 区 域 分 割 的 方法 ,但 还 没有 一 种 能 普 
遍 适用 于 各 种 图 像 。 因 此 ,对 图 像 分 割 的 研究 还 在 不 断 深入 之 中 ,是 目前 图 像 处 理 中 研 
究 的 热点 之 一 。 下 面 介绍 几 种 常见 的 图 像 分 割 方法 。 

基于 阔 值 的 分 割 方法 是 一 种 直接 对 图 像 灰 度 信息 阔 值 化 处 理 的 分 割 算 法 ,就 是 
简单 地 用 一 个 或 几 个 国 值 将 图 像 灰 度 直方 图 进行 分 类 ,将 灰 度 值 在 同一 个 灰 度 类 内 
的 像素 归 为 同一 个 物体 ,直接 利用 图 像 的 灰 度 特性 进行 分 割 。 因 此 有 实现 简单 .成 
本 低廉 .实用 性 强 等 优点 :但 是 当 图 像 中 灰 度 差异 不 明显 、 或 者 各 物体 的 灰 度 范围 值 
A ARA EAM R h ,往往 难以 得 到 准确 的 分 割 结果 ,从 而 产生 很 多 过 分 割 错 误 。 

基于 边缘 的 分 割 方法 利用 了 边缘 总 是 以 强度 突变 的 形式 出 现 的 特性 ,或 者 说 不 同 区 
域 之 间 像 素 灰 度 值 变化 比较 剧烈 的 特点 :根据 相关 的 数学 知识 ,这 类 方法 一 般 采 用 图 像 
一 阶 导 数 极 值 和 二 阶 导 数 过 零点 信息 作为 边缘 点 的 判断 依据 ,边缘 定位 准确 ,运算 速度 
快 。 但 边缘 的 连续 性 和 封闭 性 难以 保证 ,对 于 复杂 图 像 的 分 割 效 果 较 差 , 如 可 能 出 现 边 
缘 模 糊 、 边 缘 丢 失 等 现象 。 边 缘 检 测 方法 常常 依赖 于 边缘 检测 算 子 ,从 而 找到 图 像 边 缘 ; 
常用 的 检测 算 子 有 : Roberts 算 子 、Sobel 算 子 、Prewitt 算 子 .Canny 算 子 、Laplacian 算 子 
和 Marr 算 子 ( 即 LOG 算 子 )。 

基于 区 域 的 图 像 分 割 考虑 了 图 像 的 空间 信息 ,如 图 像 灰 度 、 纹 理 . 颜 色 和 像素 统计 特 
性 等 ,进而 将 目标 对 象 划分 为 同一 区 域 的 分 割 方法 。 常 见 的 区 域 分 割 方 法 有 : 区 域 生 长 
法 、 分 裂 合并 法 和 分 水 岭 分 割 方法 。 

5) 图 像 描述 

图 像 描述 是 图 像 识 别 和 理解 的 必要 前 提 。 作 为 最 简单 的 二 值 图 像 可 采用 其 几何 特 
性 描述 物体 的 特性 ,一 般 图 像 的 描述 方法 采用 二 维 形状 描述 , 它 有 边界 描述 和 区 域 描述 
两 类 方法 。 对 于 特殊 的 纹理 图 像 可 采用 二 维 纹理 特征 描述 。 随 着 图 像 处 理 研 究 的 深入 
发 展 ,已 经 开始 进行 三 维 物 体 描述 的 研究 ,提出 了 体积 描述 、 表 面 描述 .广义 圆柱 体 描述 
等 方法 。 

6) 图 像 分 类 (识别 ) 

图 像 分 类 (识别 ) 属 于 模式 识别 的 范畴 ,其 主要 内 容 是 图 像 经 过 某 些 预 处 理 ( 增 强 、 复 
原 、 压 缩 ) 后 ,进行 图 像 分 割 和 特征 提取 ,从 而 进行 判决 分 类 。 图 像 分 类 常 采用 经 典 的 模 
式 识别 方法 ,有 统计 模式 分 类 和 句法 (结构 ) 模 式 分 类 ,近年 来 新 发 展 起 来 的 模糊 模式 识 
别 和 人 工 神经 网 络 模式 分 类 在 图 像 识 别 中 也 越 来 越 受 到 重视 。 
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7.1.4. 数字 图 像 内 容 安全 的 技术 分 类 


数字 图 像 信息 安全 ,是 伴随 着 计算 机 网 络 和 多 媒体 技术 的 迅速 发 展 而 产生 的 新 间 
题 , 如 何 保 证 数字 图 像 信息 的 安全 已 成 为 国际 上 的 热门 研究 课题 。 常 见 的 数字 图 像 内 容 
安全 的 技术 有 以 下 几 种 。 


1. 图 像 加 密 技 术 


通过 图 像 加 密 操作 后 ,原来 的 数字 图 像 变 为 类 似 于 信道 随机 噪声 的 信息 ,这 些 信息 
对 不 知道 密 钥 的 网 络 窃听 者 是 不 可 识别 的 (除非 进行 了 有 效 破译 ) ,进而 可 以 有 效 地 保护 
传输 中 的 图 像 数 据 。 随 着 人 们 对 知识 产权 的 重视 及 娱乐 工业 的 发 展 , 可 以 预见 ,图 像 加 
密 技 术 会 有 广阔 的 应 用 前 景 。 


2. 数字 图 像 水 印 技术 


数字 图 像 水 印 技术 是 利用 数字 图 像 中 普遍 存在 的 元 余数 据 和 随机 性 把 版 权 信息 嵌 
和 人 在 数字 图 像 中 从 而 起 到 保护 数字 图 像 版 权 或 完整 性 的 一 种 技术 。 作 为 版 权 信息 嵌入 
到 数字 图 像 中 的 秘密 信息 即 称 为 数字 水 印 (digital watermark) , 它 可 以 是 无 意义 的 随机 
序列 ,也 可 以 是 文字 、 图 像 .声音 等 有 意义 的 信息 。 

由 于 数字 图 像 水 印 技术 的 目的 在 于 保证 水 印 数据 不 被 侵犯 和 发 现 ,同时 还 必须 考虑 
水 印 数据 在 经 历 各 种 环境 .正常 和 非 正常 数据 操作 之 后 是 否 仍 具有 免 遭 破坏 的 能 力 , 因 
此 ,为 使 数字 图 像 水 印 技术 得 以 实施 , 它 必须 具备 下 面 的 特性 : 


1) 透明 性 
对 于 以 模拟 方式 存储 和 分 发 的 信息 (如 电视 节目 ) ,或 是 以 物理 形式 存储 的 信息 (如 
报刊 ,杂志 ) ,用 可 见 的 标志 就 足以 表明 其 所 有 权 。 但 在 数字 方式 下 ,标志 信息 极 易 被 修 


改 或 擦 除 。 因 此 应 根据 多 媒体 信息 的 类 型 和 几何 特性 ,利用 用 户 提 供 的 密 钥 将 水 印 隐藏 
到 一 系列 随机 产生 的 位 置 中 ,使 人 无 法 察觉 。 

2) 鲁 棒 性 

鲁 棒 性 是 指数 字 图 像 经 过 一 些 处 理 、 数 字 图 像 数据 发 生 一 定 程 度 的 变化 后 ,版 权 所 
有 者 仍然 可 以 证 明 水 印 的 存在 。 可 能 的 处 理 包 括 : 

CD 几何 变形 : 对 图 像 进行 尺寸 缩放 .剪裁 .扭转 等 。 

@ 有 损 压 缩 : 常用 的 图 形 文件 格式 JPEG 就 属于 有 损 压 缩 。 它 先 将 图 像 用 DCT A 
数 转换 到 频率 域 , 然 后 对 其 量化 ,在 量化 过 程 中 忽略 掉 一 些 感知 上 不 重要 的 成 分 ,以 达到 
压缩 文件 尺寸 的 目的 。 虽 然 肉 眼看 不 出 来 ,但 压缩 后 图 像 的 精度 肯定 有 所 降低 。 

© 信号 处 理 : 如 调整 图 像 和 视频 的 对 比 度 、 亮 度 、 色 度 ,以 及 模 / 数 、 数 / 模 转换 等 。 

3) 不 可 检测 性 

水 印 作品 和 普通 作品 在 统计 噪声 分 布 上 不 存在 区 别 , 攻 击 者 无 法 用 统计 学 方法 确定 
水 印 的 位 置 。 

4) 安全 性 

数字 图 像 水 印 技术 应 具有 较 强 的 抗 攻击 能 力 ,能 够 承受 一 定 程 度 的 人 为 攻击 ,而 暗 
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藏 的 水 印 不 被 破坏 。 

5) 自 恢 复 性 

由 于 经 过 一 些 操作 或 变换 后 ,可 能 会 使 原 图 产生 较 大 的 破坏 ,如 果 只 根据 留 下 的 片 
段 数据 , 仍 能 恢复 隐藏 信号 ,而 且 恢 复 过 程 不 需要 宿主 信号 ,这 就 是 所 谓 的 自 恢 复 性 。 


3. 数字 图 像 隐 写 分 析 技 术 


数字 图 像 隐 密 分 析 技 术 主 要 有 三 个 阶段 : 首先 ,需要 进行 判断 图 像 中 是 否 存在 秘密 
信息 的 一 般 性 隐 密 分 析 ; 其 次 ,在 用 一 般 性 隐 密 分 析 判 断 出 图 像 中 是 否 含有 秘密 信息 基 
础 上 ,需要 使 用 针对 性 隐 密 分 析 方 法 判断 可 能 使 用 的 隐 密 方法 ,并 确定 出 被 骨 秘 密 信息 
长 度 和 艇 入 位 置 ; 最 后 ,确定 隐藏 方法 、 隐 密 软件 和 嵌入 密 钥 来 提取 秘密 信息 以 作为 确 羡 
证 据 。 


7.2 数字 图 像 内 容 加 密 技 术 


在 网 络 上 传输 图 像 数 据 , 很 多 情况 下 要 求 发 送 方 和 接收 方 在 保密 的 情况 下 进行 ,如 
军用 卫星 所 拍摄 的 图 片 . 军 用 设施 图 纸 、 新 型 武器 图 、 金 融 机 构 的 建筑 图 纸 等 ;还 有 些 图 
像 信 息 ,如 在 远程 医疗 系统 中 ,医院 中 患者 的 病历 (其 中 包括 患者 的 图 像 ) ,根据 法 律 必须 
要 在 网 络 上 加 密 后 方 可 传输 。 不 言 而 喻 ,由 Internet 传输 图 像 数 据 不 但 方便 快捷 ,不 受 
地 域 限制 ,而且 省 时 省 力 ,节约 开支 ,提高 效率 。 但 由 于 某 些 图 像 数 据 的 特殊 性 , 即 发 送 
和 接收 的 双方 都 不 希望 网 络 上 所 传输 的 图 像 数 据 被 未 授权 者 所 浏览 或 处 理 ,因为 这 些 图 
像 信息 不 但 涉及 个 人 隐私 ,而 且 有 的 涉及 国家 安全 ,因而 图 像 数据 的 保护 越 来 越 受 到 社 
会 的 普遍 重视 。 


7.2.1 数字 图 像 加 密 技术 分 类 


数字 图 像 加 密 就 是 在 发 送 端 采用 一 定 的 算法 作用 于 一 幅 图 像 明文 ,使 其 合成 不 可 识 
别 的 密 文 ,达到 图 像 保 密 的 目的 。 在 接收 端 采用 相应 的 算法 解密 ,恢复 出 原文 。 其 通用 
算法 模型 如 图 7-2 Bros o 


原文 图 像 ^ 密 文 “| 解密 -| 原文 图 像 


密 钥 密 钥 
图 7-2 数字 图 像 加 密 通 用 模型 


数字 图 像 加 密 有 多 种 分 类 方法 ,如 果 按 照 加 密 手 段 的 不 同 , 可 分 为 : 基于 现代 密码 体 
制 的 加 密 方法 、 基 于 混沌 理论 的 加 密 方法 、 基 于 矩阵 变换 或 像素 变换 的 加 密 方法 等 。 按 
照 加 密 对 象 的 不 同 ,可 分 为 : 对 空间 域 像素 值 的 加 密 方法 、 对 变换 域 系 数 的 加 密 方法 等 。 
按照 加 密 时 结合 的 技术 的 不 同 可 分 为 : 结合 图 像 编 码 技术 的 加 密 方法 、 结 合 图 像 压缩 技 
术 的 加 密 方 法 、 结 合 神经 网 络 的 加 密 方法 等 。 
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这 些 方法 既 相互 独立 又 相互 关联 ,甚至 一 些 方法 的 结合 使 用 能 达到 意 想不到 的 加 密 
效果 。 在 不 同 的 应 用 场合 .不同 的 加 密 要 求 下 ,可 以 选择 适当 的 加 密 方法 。 下 面 着 重 介 
绍 其 中 几 种 典型 加 密 方法 的 原理 和 优 缺 点 。 


7.2.2 典型 的 数字 图 像 加 密 算法 


1. 基于 矩阵 变换 及 像素 置换 的 图 像 置 乱 加 密 技 术 


图 像 置 乱 加 密 技 术 的 基本 方法 是 把 一 幅 图 像 经 过 变换 或 利用 数学 上 的 知识 ,搅乱 像 
素 位 置 或 颜色 ,将 原来 有 意义 的 图 像 信息 变换 成 一 幅 “* 和 杂乱无章 的 图 像 , 无 法 辨认 出 原 
始 图 像 信 息 , 从 而 达到 在 一 定 程度 上 迷惑 第 三 方 的 目的 。 为 了 确保 其 机 密 性 ,算法 中 一 
般 引 入 密 钥 。 图 像 合法 接受 方 借助 密 钥 ,通过 相应 算法 的 逆 变 换 可 解密 出 原始 图 像 , 这 
一 过 程 又 称 去 乱 。 

目前 ,数字 图 像 置 乱 加 密 的 方法 已 有 许多 种 ,这 些 方法 在 一 定 的 应 用 范围 中 各 自 起 
到 了 积极 的 作用 。 由 于 置 乱 加 密 不 仅 用 于 图 像 信息 的 保密 ,同时 也 是 图 像 信息 隐藏 .图 
像 信息 分 存 .数字 水 印 技术 等 工作 的 基础 ,因此 置 乱 加 密 算 法 的 优 劣 也 直接 影响 到 其 他 
处 理 的 效果 。 


1) Arnold 变换 
设 像素 的 坐标 rz,yE S={0,1,2,…,N 一 1),Arnold 变换 为 : 
x i 
len se co 
y 1 2JLy 
ic 2E rp f dB Heg A ,反复 进行 这 一 变换 , 则 有 和 迭代 公式 ， 
Qj" = AQ}; (mod N), n= 0,1,2," (7-5) 


其 中 ,QE S,@s — G, jT 为 迭代 第 nn 步 时 点 的 位 置 。 

Arnold 变换 可 以 看 作 是 裁 前 和 拼接 的 过 程 。 通 过 这 一 过 程 将 离散 化 的 数字 图 像 矩 
阵 中 的 点 重新 排列 。 由 于 离散 数字 图 像 是 有 限 点 集 , 这 种 反复 变换 的 结果 ,在 开始 阶段 
中 像素 点 的 位 置 变化 会 出 现 相当 程度 的 混乱 ,但 由 于 动力 系统 固有 的 特性 ,在 迭代 进行 
到 一 定 步 数 时 会 恢复 到 原来 的 位 置 , 即 变换 具有 庞 加 莱 回 复 性 。 这 样 , 只 要 知道 加 密 算 
法 ,按照 密 文 空间 的 任意 一 个 状态 来 进行 迭代 ,都 会 在 有 限 步 内 恢复 出 明文 ( 即 要 传输 的 
原 图 像 )。 这 种 攻击 对 于 现代 的 计算 机 来 说 其 计算 时 间 是 很 短 的 ,因而 其 保密 性 不 高 。 

2) 其 他 置 乱 加 密 技术 

相对 位 置 空间 而 言 , 基 于 色彩 空间 的 置 乱 加 密 技 术 是 指 通过 数学 知识 或 其 他 性 质 ， 
置 乱 原始 图 像 像素 的 灰 度 值 或 色彩 值 , 同 样 可 起 到 扰乱 原 图 信息 的 目的 。 例 如 基于 灰 度 
变换 的 置 乱 加 密 方 法 ,其 思想 来 源 于 数字 图 像 处 理 中 的 灰 度 直方 图 变换 , 置 乱 加 密 算法 
中 的 密 钥 增 加 了 破解 的 难度 ;可 采用 密码 学 加 密 算法 对 图 像 灰 度 进行 变换 ,研究 空间 更 
广泛 ,算法 运行 时 间 较 得。 人 们 意识 到 置 乱 加 密 技 术 不 仅 可 以 考虑 将 图 像 的 像素 位 置 置 
SL ,像素 灰 度 值 也 可 以 进行 置 乱 处 理 。 后 来 ,有 两 种 新 的 置 乱 变换 被 提出 : 准 逆序 置 乱 和 
准 抖动 置 乱 ,这 是 针对 数字 图 像 灰 度 空间 中 两 种 变换 的 置 乱 加 密 。 在 图 像 信息 隐蔽 存储 
与 传输 中 ,这 类 图 像 变换 具有 重大 的 应 用 价值 。 
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混沌 系统 在 一 定 的 控制 参数 范围 内 会 出 现 混沌 现象 ,产生 的 混沌 序列 具有 确定 性 、 
伪 随 机 性 、 非 周期 性 和 不 收敛 等 性 质 , 并 且 对 初始 值 有 极其 敏感 的 依赖 性 。 由 于 混沌 天 
然 的 优势 ,人 们 多 引用 Logistic 映射 产生 实数 值 混沌 ,采用 不 同 的 量化 方法 对 其 量化 为 混 
沌 序列 ,然后 运用 到 图 像 置 乱 加 密 中 来 ,加 密 效果 非常 好 ,再 结合 一 定 的 其 他 算法 ,可 以 
达到 快速 .安全 性 高 的 效果 。 不 可 和 否认 ,混沌 的 引入 为 图 像 置 乱 加 密 带 来 了 又 一 新 的 发 
展 方向 。 

基于 变换 空间 的 置 乱 加 密 也 是 图 像 置 乱 加 密 中 的 又 一 新 领域 。 它 主要 是 指 对 数字 
图 像 的 变换 域 ( 如 离散 余弦 变换 DCT ,离散 傅 里 叶 变 换 DFT、 小 波 变 换 等 ) 的 系数 进行 置 
TL ,扰乱 图 像 信息 。 不 过 较 成 熟 的 变换 域 置 乱 加 密 算 法 还 有 待 进一步 研究 和 开发 。 


2. 基于 现代 密码 体制 的 图 像 加 密 技 术 


Claude Shannon 于 1949 发 表 了 一 篇 题 为 “保密 系统 的 信息 理论 ”的 文章 ,用 信息 论 
的 观点 对 信息 保密 问题 做 了 全 面 的 阐述 ,建立 了 现代 密码 学 理论 。 对 于 图 像 数据 来 说 ， 
这 种 加 密 技 术 就 是 把 待 传输 的 图 像 看 做 明文 ,通过 各 种 加 密 算法 ,如 DES, AES 等 ,在 密 
钥 的 控制 下 ,达到 图 像 数据 的 保密 通信 。 这 种 加 密 机 制 的 设计 思想 是 加 密 算法 可 以 公 
开 , 通 信 的 保密 性 完全 依赖 于 密 钥 的 保密 性 ( 即 满足 Kerckhoffs 假设 )。 其 原理 框图 如 
图 7-3 所 示 。 


密码 分 析 
明文 - SEX Ee 原始 明文 
Taw E mea is OSEE RO 
加 密 密 铀 RERA 


673 密 钥 控制 下 的 保密 通信 框图 


图 7-3 中 ,加 密 密 钥 和 解密 密 钥 可 以 相同 也 可 以 不 同 ,并 依 此 来 划分 出 两 种 基本 的 密 
码 算法 , 即 对称 算 法 和 非 对 称 算法 (也 叫 公开 密 钥 算法 ) 。 

由 于 数字 图 像 的 数据 量 通常 较 大 , 若 直接 采用 现代 密码 体制 中 的 标准 算法 进行 加 
密 , 其 处 理 效率 通常 较 低 。 


3. 基于 混沌 的 图 像 加 密 技术 


基于 混沌 的 图 像 加密 技 术 是 近年 才 发 展 起 来 的 一 种 新 型 密码 技术 。 它 是 把 待 加密 
的 图 像 信息 看 作 是 按照 某 种 编码 方式 的 二 进 制 的 数据 流 , 利 用 混沌 信号 来 对 图 像 数 据 流 
进行 加 密 。 混 沌 之 所 以 适合 于 图 像 加 密 ,这 是 与 它 自身 的 动力 学 特点 密切 相关 的 。 

混沌 加 密 的 原理 就 是 在 发 送 端 把 待 传输 的 有 用 信和 号码 加 (或 某 种 调制 机 制 ) 上 一 个 
(或 多 个 ) 混 沌 信号 ,使 得 在 传输 信道 上 的 信号 具有 类 似 随机 噪声 的 性 态 , 进 而 达到 保密 
通信 的 目的 。 在 接收 端 通 过 对 难 加 的 混沌 信号 去 掩盖 (或 相应 的 解 调 机 制 ) ,去 除 混沌 信 
号 ,恢复 真正 传输 的 信和 号。 

混沌 加 密 方法 属于 对 称 加 密 体 制 的 范畴 ,这 种 加 密 体 制 的 安全 性 取决 于 密 钥 流 发 生 
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器 ( 即 混沌 ) 所 产生 的 信号 与 随机 数 的 近似 程度 , 密 钥 流 越 接近 随机 数 , 其 安全 性 越 高 , 反 
之 则 容易 被 攻破 。 混沌 加 密 方法 是 符合 现代 密码 学 要 求 的 ,其 近 阶 段 的 主要 研究 方向 是 
寻找 更 加 随机 的 混沌 流 , 并 解决 混沌 流 的 同步 问题 。 


4. 基于 秘密 分 割 与 秘密 共享 的 图 像 加 密 技术 


秘密 分 割 就 是 把 消息 分 割 成 许多 碎片 , 传 一 个 碎片 本 身 并 不 代表 什么 ,但 把 这 些 碎 
片 放 到 一 起 消息 就 会 重 现 。 这 种 思想 用 于 图 像 数据 的 加 密 就 是 在 发 送 端 先 要 把 图 像 数 
据 按 某 种 算法 进行 分 割 , 并 把 分 割 后 的 图 像 数 据 交 给 不 同 的 人 来 保存 ;而 在 接收 端 需要 
保存 秘密 的 人 的 共同 参与 才能 恢复 出 原始 待 传输 的 图 像 数 据 。 为 了 实现 在 多 个 人 中 分 
制 一 幅 秘 密 图 像 信 息 ,可 以 将 此 图 像 信 息 与 多 个 随机 位 异 或 成 混合物”。 例 如 Trent 可 
将 一 幅 图 像 信息 划分 为 4 部 分 并 按 如 下 协议 实现 : 

。 Trent 产生 3 个 随机 位 串 R,S.,T, 每 个 随机 位 串 和 图 像 信 息 M 一 样 长 。 

。 Trent 用 这 3 个 随机 位 串 和 M 异 或 得 到 U: MORGSOT-U., 

* Trent 将 R 给 Alice,S 给 Bob. T 4 Carol,U 给 Dave, 

Alice, Bob, Carol, Dave 在 一 起 可 以 重 构 待 传输 的 秘密 图 像 信息 ,MDR@S@T=M，。 

在 这 个 协议 中 ,Trent 作为 仲裁 人 具有 绝对 的 权利 ,他 知道 秘密 的 全 部 ,他 可 以 把 毫 
无 意义 的 东西 分 发 给 某 个 人 ,并 宣布 是 秘密 的 有 效 部 分 ,并 在 秘密 恢复 之 前 没有 人 知道 
这 是 不 是 一 句 谎 话 ( 他 可 以 把 “秘密 ?分 发 给 Alice, Bob, Carol, Dave 四 个 人 ,并 宣布 秘密 
都 是 有 效 的 ,但 实际 上 只 需要 Alice, Bob, Carol 三 人 就 可 恢复 秘密 ) 。 

这 个 协议 存在 这 样 一 个 问题 : 如 果 秘 密 的 一 部 分 丢失 了 而 Trent 又 不 在 ,就 等 于 把 
秘密 丢失 了 ,而 且 这 种 一 次 一 密 的 加 密 体制 是 有 任何 计算 能 力 和 资源 的 个 人 和 部 门 都 无 
法 恢复 秘密 的 。 


5. 基于 压缩 编码 技术 的 加 密 方法 


数字 图 像 的 大 数据 量 是 图 像 的 一 个 显著 特点 ,在 数字 图 像 处 理 研 究 中 ,图 像 的 压缩 
编码 技术 格外 引 人 注 目 。 许 多 学 者 将 二 者 有 机 地 结合 在 一 起 ,取得 了 令 人 瞩目 的 成 绩 ， 
丰富 了 图 像 加 密 技术 。 


6. 基于 变换 域 的 加 密 方法 


针对 数字 图 像 数据 的 特点 ,人 们 对 其 加 密 方 法 的 思想 不 单单 限制 在 图 像 的 像素 空 
间 域 上 ,而 将 更 多 的 目光 投向 了 图 像 的 变换 域 。 利 用 传统 的 加 密 方法 对 图 像 文 件 加 密 
时 ,只 是 对 图 像 全 部 数据 进行 加 密 , 但 对 大 数据 量 的 图 像 数据 进行 加 密 , 显 然 不 大 

图 像 的 变换 域 是 相对 于 图 像 的 像素 空间 域 而 言 的 ,一 般 地 可 以 利用 DCT、 快 速 傅 里 
叶 变 换 (Fast Fourier Transform,FFT) 以 及 小 波 变换 等 方法 来 实现 图 像 空 间 域 和 变换 域 
之 间 的 转换 。 基 于 变换 域 的 加 密 方 法 主要 是 将 图 像 作 变换 后 ,对 变换 系数 进行 保密 处 
理 ,这 样 大 大 减少 了 保密 数据 ,提高 了 加 密 效率 ,同时 也 增加 了 转化 时 间 。 
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7.3. 数字 图 像 内 容 隐 写 与 水 印 技术 


数字 水 印 技术 是 将 一 些 标识 信息 直接 嵌入 数字 载体 当中 (包括 多 媒体 ,文档 等 ) 或 是 
间接 表示 (修改 特定 区 域 的 结构 ), 它 不 影响 原 载体 的 使 用 价值 ,也 不 容易 被 探知 和 再 次 
修改 ,但 可 以 被 生产 方 识 别 和 辨认 。 通 过 这 些 隐 藏 在 载体 中 的 信息 ,可 以 达到 确认 内 容 
创建 者 、 购 买 者 、 传 送 隐秘 信息 或 者 判断 载体 是 否 被 自 改 等 目的 。 它 是 实现 版 权 保 护 的 
有 效 办 法 ,是 信息 隐藏 技术 的 一 个 重要 研究 方向 。 

数字 图 像 水 印 技术 是 指 用 信号 处 理 的 方法 在 图 像 中 嵌入 隐 含 标记 。 一 个 数字 图 像 
水 印 系 统 主要 包括 水 印 的 生成 .嵌入 和 检测 三 个 部 分 。 图 7-4 展示 了 整个 模型 的 框图 。 


密 钥 水 印 生成 向 入 水 印 的 
图 像 


1 
CDN Rum 
A 


/攻击 


水 印 是 否 存在 


图 7-4 一 个 数字 图 像 水 印 系统 的 模型 


图 中 虚线 表示 在 某 些 情形 (如 讶 水 印 系统 ) 中 , 原 图 像 是 不 需要 的 。 
生成 数字 水 印 是 完成 向 数字 图 像 中 嵌入 水 印 的 最 关键 的 一 步 。 若 mn 表示 原始 信息 ， 
下 表示 水 印 生成 函数 ,X 表示 要 嵌入 水 印 的 原始 图 像 ,K 表示 密 钥 ,W 表示 要 加 入 的 水 
印 , 则 有 : 
W = FOn.X.K) 
一 般 情 况 下 ,数字 水 印 的 生成 过 程 如 图 7-5 所 示 。 


原始 信息 
密 钥 (3 水 印 生成 函数 | xem | 
图 像 


图 7-5 水 印 生成 过 程 


水 印 的 嵌入 就 是 把 生成 的 水 印信 息 进 行 适当 变换 嵌入 到 数字 图 像 中 的 过 程 。 水 印 
嵌入 模型 如 图 7-6 所 示 , 其 输入 信号 是 水 印信 息 、 载 体 数据 和 一 个 可 选 的 密 钥 ,水 印 系统 
通常 使 用 密 钥 来 确保 安全 。 水 印 可 以 是 随机 数字 序列 、 图 像 或 文本 的 任意 形式 信息 。 常 
用 的 嵌入 公式 有 : 
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vr = v; + aw; (7-6) 

vr = u + aw;) (7-7) 
其 中 ,wi、v? PIRR PERI SRCRIU iC AK E 169 D 8 (6 3 w: 为 水 印信 号 分 量 ; 参 数 a 为 
小 于 1 RE K ED t A 3 REAT sa 的 选择 必须 考虑 图 像 的 性 质 和 视觉 系统 的 特性 ,在 保证 水 
印 不 可 见 的 前 提 下 , 尽 可 能 提高 嵌入 水 印 的 强度 。 


密 钥 水 印信 息 
x EN XQ L.[ xm 
TT —* 信息 


图 7-6 水 印 嵌 入 模型 


数字 水 印 的 检测 (提取 ) 是 数字 水 印 的 关键 技术 之 一 。 一 般 情况 下 ,在 提取 水 印 之 前 
应 先 检测 水 印 是 否 存 在 ,然后 根据 检测 (提取 ) 密 钥 , 采 用 嵌入 算法 的 逆 算法 ,检测 (提取 ) 
待 证 实 的 每 个 水 印 。 若 用 G 表示 水 印 检测 函数 ,X* 为 待 检 测 图 像 ,W" 为 待 证 实 的 水 印 ， 
X 为 原始 载体 图 像 ,K 为 密 钥 , 则 有 : 
W" =G(X*,X,K) (7-8) 
水 印 检测 模型 如 图 7-7 所 示 。 


含水 印 载体 信息 
O 载体 信息 1 


图 7-7 水 印 检测 模型 


7.3.1 数字 图 像 水 印 的 分 类 


数字 水 印 的 分 类 方法 有 多 种 。 从 加 水 印 后 图 像 中 的 水 印 是 否 可 见 可 分 为 可 见 水 印 
和 不 可 见 水 印 两 大 类 (大 部 分 情况 下 ,水 印 是 不 可 见 的 ) 。 

从 水 印 的 来 源 可 分 为 独立 于 图 像 的 水 印 和 图 像 自 适应 的 水 印 。 独 立 于 图 像 的 水 印 
可 以 是 随机 产生 的 也 可 以 是 事先 给 定 的 ,而 图 像 自 适应 的 水 印 是 利用 原始 图 像 的 特性 生 
成 的 水 印 。 

从 加 水 印 图 像 的 抗 过 滤 或 压缩 等 能 力 来 分 ,可 以 分 为 脆弱 水 印 、 半 脆弱 水 印 和 重 棒 
水 印 。 脆 弱 水 印 对 任何 图 像 变 换 或 处 理 都 非常 敏感 , 半 脆 弱 水 印 对 某 些 特 定 的 图 像 处 理 
方法 有 鲁 棒 性 而 对 其 他 的 处 理 不 具备 鲁 棒 性 , 鲁 棒 水 印 对 常见 的 各 种 图 像 处 理 方法 都 具 
有 重 棒 性 。 

从 水 印 检 测 是 否 需要 原始 图 像 参 与 来 分 ,可 以 分 为 私有 水 印 和 公有 水 印 。 私 有 水 印 
的 检测 需要 原始 图 像 参与 .公有 水 印 的 检测 不 需要 原始 图 像 的 参与 。 因 此 私有 水 印 对 原 
始 图 像 的 依赖 性 比较 强 , 这 在 网 络 上 是 很 不 利 的 ,而 公有 水 印 则 只 依赖 于 图 像 本 身 , 不 需 
要 原始 图 像 。 

对 于 数字 图 像 来 说 ,水 印 技 术 就 是 通过 改变 图 像 数据 的 值 来 加 入 水 印 ,根据 加 入 位 
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置 的 不 同 , 水 印 技术 又 可 分 成 时 域 法 和 频 域 法 。 时 域 法 直接 改变 图 像 元 素 的 值 , 一 般 是 
在 图 像 元 素 的 亮度 或 色 度 中 加 入 调制 的 水 印信 号 。 频 域 法 利用 某 种 数学 变换 ,将 图 像 用 
频 域 表示 ,通过 改变 图 像 的 某 些 频 域 系 数 来 加 入 水 印 , 然 后 利用 反 变换 生成 含水 印 的 图 
像 , 常 用 的 数学 变换 有 离散 傅 里 叶 和 离散 余弦 变换 等 。 


7.3.2 典型 的 数字 图 像 水 印 算法 


近年 来 ,在 图 像 水 印 方面 已 提出 了 很 多 算法 ,比较 典型 的 有 空域 数字 水 印 、 变 换 域 数 
FIKEN .压缩 域 数 字 水 印 .NEC 数字 水 印 .生理 模型 数字 水 印 等 。 下 面 就 分 别 对 上 述 方法 
进行 介绍 。 


L 空间 域 数字 水 印 算法 


首先 生成 一 个 M 序 列 形式 的 水 印 , 然 后 将 图 像 的 像素 比特 位 压缩 ,把 水 印 直 接替 
换 图 像 像素 的 最 低位 (Least Significant Bit, LSB) 2X # R JH 2X TE £n HY 75 i WE IK EN iik A 
到 LSB 上 。 这 种 水 印 具 有 一 定 的 鲁 棒 性 ,但 由 于 它 位 于 图 像 的 LSB 上 ,所 以 很 容易 被 
去 除 。 

G. Voyatzis 和 I. Pitas 提出 了 一 种 基于 混沌 系统 的 算法 , 即 先 设计 一 个 基于 Torus 
Automorphism 的 混沌 系统 ,将 一 幅 用 作 水 印 的 NXN 图 像 S 和 密 钥 K 输入 到 这 个 混沌 
系统 中 ,得 到 一 个 混沌 的 水 印 图 像 S。 然 后 ,在 待 嵌 水 印 的 M, XM: BIR Io 中 ,选择 一 
块 NXN 区 域 ,以 一 定 的 方法 琶 加 府 入 水 印 S'。 这 种 方法 具有 很 强 的 鲁 棒 性 ,能 较 好 地 
抵御 几何 攻击 。 


2. 变换 域 算法 


IL J. Cox 等 提出 了 基于 DCT 域 的 扩 频 水 印 算法 。 先 用 密 钥 生成 一 个 长 度 为 1000 
的 服从 正 态 分 布 N(0,1) 的 伪 随机 序列 ,然后 对 图 像 进行 全 局 二 维 DCT 变换 ,选取 最 大 
的 1000 个 交流 (AC) 系 数 , 采 用 一 个 合适 的 戏 入 公式 将 水 印 嵌 入 。 例 如 : 

Xi= nA +aw;) (7-9) 
式 中 : zi 为 第 i 个 最 大 的 DCT 交流 系数 ,z: 为 嵌入 水 印 后 的 系数 ,rw 为 第 i 个 水 印 分 量 ， 
ax 是 个 常量 ,表示 水 印 的 嵌入 强度 。 最 后 做 一 个 反 DCT 变换 ,得 到 嵌 有 水 印 的 图 像 。 

这 种 水 印 具 有 很 强 的 鲁 棒 性 ,对 串 谋 攻击 .JPEG 压缩 缩放、 剪 切 .重复 加 水 印 
等 多 种 攻击 方式 均 能 较 好 地 抵挡 。Cox 等 此 后 又 做 了 大 量 工作 ,对 这 一 算法 进行 了 
改进 。 

基于 其 他 变换 域 ,如 DET 等 算法 也 有 很 多 ,但 主要 原理 是 一 致 的 ,即将 图 像 从 空域 
变换 到 某 个 适合 处 理 的 变换 域 , 再 修改 该 域 中 最 重要 的 若干 个 系数 以 嵌入 水 印 。 如 有 人 
提出 了 一 种 在 DET 域 中 嵌入 一 个 对 称 环形 水 印 的 算法 。 另 外 有 方法 则 先生 成 一 个 具有 
空间 自 相 似 特 性 的 水 印 ,再 将 图 像 以 Harr 小 波 基 范 数 分 解 为 4 级 ,将 水 印 诅 入 到 最 高 级 
和 次 高 级 的 细节 区 中 。 这 两 种 算法 不 仅 对 滤波 和 JPEG 压缩 具有 很 强 的 鲁 棒 性 ,而 且 能 
有 效 抵抗 几何 攻击 。 
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3. 生理 模型 算法 


人 的 生理 模型 包括 人 类 听觉 系统 (Human Auditory System,HAS) 和 人 类 视觉 系统 
HVS(Human Visual System. HVS) 。 该 模型 不 仅 被 多 媒体 数据 压缩 系统 利用 ,同样 也 
可 以 供 数字 图 像 水 印 系统 利用 。 利 用 视觉 模型 的 基本 思想 均 是 利用 从 视觉 模型 导出 
的 JND(Just Noticeable Difference) 描 述 来 确定 在 图 像 或 声音 的 各 个 部 分 所 能 容忍 的 数 
字 水 印信 号 的 最 大 强度 ,从 而 能 避免 破坏 视觉 或 者 听觉 的 质量 。 也 就 是 说 ,利用 生理 
模型 来 确定 与 数据 相关 的 调制 掩 模 , 然 后 再 利用 其 来 嵌入 水 印 。 这 一 方法 具有 较 好 的 
透明 性 和 强健 性 。 


4. 其 他 算法 


1) 分 形 水 印 

基于 图 像 分 形 压 缩 的 分 形 水 印 是 由 Puate 和 Jordan 提出 的 。 令 嵌入 的 信息 为 b， 
bE (0,1) ,在 图 像 中 随机 选取 一 区 域 块 ,将 它 分 成 两 个 相等 的 子 区 域 块 ,给 每 一 个 子 块 分 
配 1 比特 信息 ,然后 进行 搜索 ,只 有 当 子 块 中 含有 相对 应 比特 值 时 ,该 区 域 块 才 会 被 
编码 。 

在 恢复 过 程 中 , 先 对 含水 印 图 像 作 分 形 压 缩 , 然 后 进行 全 局 搜索 ,被 标记 块 的 位 置 即 
包含 了 谍 入 信息 。 实 验 表 明 这 种 水 印 可 以 有 效 抵 抗 JPEG 压缩 ,缺点 是 计算 量 大 、 速 度 
慢 ,这 主要 是 由 分 形 压 缩 造成 的 。 

2) 基于 特征 的 水 印 算法 

1999 年 Kutter 等 最 先 提 出 第 二 代 水 印 的 概念 ,建议 水 印 嵌入 在 感知 有 意义 的 特征 
区 域 中 。 对 于 图 像 来 说 ,可 能 是 边缘 、 拐 角 和 纹理 区 域 ,或 者 是 突出 点 所 在 的 区 域 。Bas 
等 提出 了 基于 图 像 特 征 点 的 水 印 方案 ,首先 提取 特征 点 ,然后 将 水 印 嵌 入 在 图 像 特征 点 
组 成 的 三 角形 网 格 中 。 此 外 还 有 局 部 化 数字 水 印 算法 ,该 算法 利用 图 像 中 相对 稳定 的 特 


只 剩 部 分 图 像 时 , 仍 能 够 通过 这 些 特 征 点 来 定位 并 提取 水 印 。 


7.4 数字 图 像 内 容 隐 写 分 析 技术 


7.4.1 数字 图 像 隐 写 分 析 技 术 分 类 


隐 写 术 是 利用 人 的 感觉 器 官 对 数字 信号 的 感觉 元 余 , 通 过 一 定 的 算法 将 隐 密 信息 嵌 
人 到 数字 载体 (包括 声音 、 图 像 、. 视 频 等 ) 中 ,以 不 被 人 的 知觉 系统 所 觉察 ,从 而 实现 隐蔽 
通信 。 隐 写 分 析 作 为 隐 写 术 的 对 立 面 .是 指 对 隐 写 术 的 检测 和 攻击 ,对 可 疑 的 载体 信息 
进行 攻击 ,以 实现 隐 密 信息 的 检测 、 破 坏 , 甚 至 提取 隐 密 信息 。 隐 写 术 通用 的 隐 写 过 程 可 
表示 如 下 : 


S — S+f(S,M) 
式 中 ,S 和 5S 分别 代表 载体 消息 和 嵌入 秘密 消息 后 的 隐藏 消息 ,M 为 待 嵌 入 的 秘密 消息 。 
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隐 写 分 析 的 过 程 就 是 从 S 中 检测 出 M 甚至 提取 M 。 

隐 写 术 与 隐 写 分 析 的 一 般 框 架 可 用 图 7-8 的 “囚犯 ?问题 描述 。 秘 密 信 息 E 的 通信 
双方 Alice 与 Bob 应 用 隐 写 术 将 正经 过 密 钥 天 加 密 后 嵌入 到 公开 的 载体 中 ,利用 公开 信 
道 传输 载 密 体 ,公用 信道 的 看 守 者 Eve 可 获得 Alice 与 Bob 之 间 的 通信 。 如 果 只 检查 通 
信 中 是 否 含有 隐蔽 通信 , 则 称 Eve 是 一 个 被 动 看 守 者 ,如 果 主 动 去 修改 获得 的 通信 ,甚至 
假冒 通信 的 一 方 伪造 秘密 信息 并 传 给 通信 的 另 一 方 , 则 称 Eve 是 一 个 主动 看 守 者 。 根 据 
这 样 的 通信 框架 , 隐 写 分 析 可 分 为 检测 、 提 取 、 混 消 、 还 原 等 层次 ,从 公开 发 表 的 文献 看 ， 
目前 国内 外 的 研究 重点 在 于 检测 ,关于 隐蔽 信息 的 提取 也 开始 受到 人 们 的 关注 。 


Tx d 密码 分 析 a] 
E | 信道 信道 jK 
i \ 开 信 
一 全 ~-[ 信息 由 入 | 全 下 信道 p 
Alice 检测 Bob 


图 7-8 隐 写 术 与 隐 写 分 析 的 一 般 框架 


数字 图 像 隐 写 分 析 方 法 大 致 可 以 分 为 专用 隐 写 分 析 、 通 用 隐 写 分 析 、 针 对 JPEG 图 像 
的 隐 写 分 析 方 法 、 针 对 FS 的 隐 写 分 析 、 基 于 小 波 特征 函数 统计 和 矩 的 隐 写 分 析 等 。 其 中 ， 
专用 隐 写 分 析 方 法 根据 提取 特征 所 在 的 域 不 同 可 分 为 空域 隐 写 分 析 和 变换 域 隐 写 分 析 ; 
通用 隐 写 分 析 的 攻击 对 象 包括 了 空域 与 变换 域 隐 写 术 , 是 隐 写 分 析 领 域 不 可 忽视 的 部 
分 。 下 面 将 重点 介绍 各 种 典型 方法 的 原理 。 


7.4.2 典型 的 数字 图 像 隐 写 分 析 算法 


1. 专用 隐 写 分 析 方法 


专用 隐 写 分 析 方 法 根据 提取 特征 所 在 的 域 不 同 ,可 分 为 空域 隐 写 分 析 和 变换 域 隐 写 
分 析 。 

1) 空域 隐 写 分 析 

空域 法 是 直接 改变 图 像 元 素 的 值 ,一 般 是 在 图 像 元 素 的 亮度 或 色 度 中 加 入 隐藏 的 内 
容 。 如 LSB 算法 , 它 通过 调整 伪装 载体 某 些 像素 数据 的 最 低 1 或 2 位 有 效 位 来 隐藏 信 
息 , 致 使 所 隐藏 的 信息 靠 视觉 很 难 被 发 现 。 空 域 类 算法 的 特点 是 只 需 对 隐秘 载体 进行 很 
小 的 ,不易 察觉 的 改变 就 能 隐藏 很 大 的 信息 量 , 计 算 速度 较 快 。 但 从 基本 原理 上 看 ,该 算 
法 所 隐藏 的 信息 是 极为 脆弱 的 , 若 载体 图 像 有 微小 的 改变 ,隐藏 信息 就 可 能 丢失 。 空 域 
隐 写 分 析 的 攻击 对 象 主要 是 空域 LSB 隐 写 术 , 包 括 EzStego, S-Tools, BPCS 等 ,是 隐 写 
分 析 研 究 初期 非常 活跃 的 部 分 。 

Westfeld 等 采用 Chi-square 统计 量 统计 调 色 板 图 像 嵌 入 秘密 消息 前 后 出 现 近似 颜 
色 对 概率 比 , 可 以 可 靠 地 检测 连续 嵌入 秘密 消息 的 调 色 板 图 像 , 但 对 随机 嵌入 的 真 彩色 
图 像 检 测 无 效 。 
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Fridrich 等 提出 的 RS 检测 法 把 图 像 像素 分 成 规则 类 、 异 常 类 和 不 可 使 用 类 ,根据 待 
测 图 像 LSB 置换 操作 前 后 每 类 像素 组 的 变化 曲线 可 以 可 靠 地 检测 灰 度 和 真 彩色 图 像 并 
估计 嵌入 量 , 但 算法 的 检测 结果 直接 受 载 体 图 像 随机 性 .噪声 和 秘密 信息 嵌入 位 置 影响 。 

Dumitrescu 等 提出 的 样本 对 分 析 法 达到 了 与 RS 最 优 检测 等 效 的 结果 。 算 法 根据 相 
邻 像素 值 的 奇偶 性 质 将 像素 对 分 为 4 种 基本 集合 ,秘密 消息 的 嵌入 导致 像素 对 从 一 个 集 
合 转换 到 另 一 个 集合 ,根据 集合 更 改 的 比例 采用 二 次 方程 来 估计 嵌入 量 。 该 方法 适用 于 
对 连续 信号 采样 的 检测 ,但 检测 结果 直接 受 秘密 信息 说 入 位 置 的 影响 ,对 非 随机 柑 入 
无 效 。 

张涛 等 定义 了 差分 直方 图 的 转移 系数 作为 LSB 平面 与 图 像 其 余 比特 平面 之 间 的 弱 
相关 性 度量 ,并 在 此 基础 上 构造 了 载体 图 像 与 隐藏 图 像 的 分 类 器 。 在 嵌入 量 比较 大 的 情 
况 下 该 算法 检测 效果 优 于 RS, 但 检测 效果 受 载 体 图 分 布 ` 嵌 入 位 置 和 秘密 消息 随机 性 的 

空域 隐 写 分 析 比 较 多 的 围绕 颜色 对 现象 进行 研究 ,研究 的 方法 经 历 了 从 简单 分 析 隐 
藏 图 像 颜 色 对 到 采用 比较 复杂 的 实验 手段 (如 再 次 嵌入 秘密 消息 归 类 .划分 集合 等 ) 来 获 
得 颜色 对 变化 量 的 过 程 ,总体 来 说 适用 性 与 实用 性 比较 低 。 

2) 变换 域 隐 写 分 析 

变换 域 隐 写 算法 是 利用 某 种 数学 变换 ,将 图 像 用 变换 域 (如 频 域 ) 表 示 , 通 过 更 改 图 
像 的 某 些 变换 域 系数 加 入 待 隐藏 信息 ,然后 再 利用 反 变 换 来 生成 隐藏 有 其 他 信息 的 图 
像 。 常 见 的 变换 域 算法 有 : 基于 DCT 的 变换 域 算法 、 基 于 DWT 的 变换 域 算法 。 变 换 域 
算法 具有 很 好 的 鲁 棒 性 ( 指 不 因 图 像 文件 的 某 种 改动 而 导致 隐藏 信息 丢失 的 能 力 ) ,对 传 
输 过 程 中 的 图 像 压 缩 .滤波 以 及 噪声 均 有 一 定 的 抵抗 力 ,并 且 很 多 方法 还 结合 了 当前 的 
图 像 和 视频 压缩 标准 (如 JPEG MPEG 等 ), 具 有 实际 意义 。 变 换 域 隐 写 分 析 的 攻击 对 象 
主要 是 DCT 域 隐 写 术 , 包 括 JSteg、F5、Outguess、MB。 

Fridrich 等 通过 解压 缩 待 测 图 像 .裁剪 .再 压缩 等 步骤 估计 载体 图 像 的 DCT 系数 直 
方 图 ,根据 待 测 图 像 直方 图 和 估计 直方 图 的 相关 改变 量 估计 Fo 算法 的 嵌入 量 。 该 方法 
能 有 效 检测 低 至 10% 的 嵌入 量 , 但 对 具有 特殊 网 格 结构 的 图 像 无 效 。 

Fridrich 等 对 待 测 图 像 进行 Outguess 嵌入 操作 ,根据 载体 图 像 与 隐藏 图 像 像素 块 边 
界 的 增 量 差 来 估计 嵌入 算法 Outguess 的 租 入 量 。 该 方法 无 须 确定 阅 值 ,对 不 可 以 由 帜 
入 秘密 消息 的 长 度 预见 图 像 宏观 改变 量 的 情况 以 及 以 DCT 系数 的 增 / 减 量 作 嵌 入 算法 
的 无 效 。 

DCT 域 隐 写 分 析 主 要 围绕 DCT 系数 的 统计 特性 及 其 对 空域 像素 的 影响 进行 研究 ， 
包括 了 对 载体 图 像 DCT 系数 的 估计 及 空域 像素 块 不 连续 性 的 计算 。 研 究 的 方法 经 历 了 
从 简单 的 一 阶 统计 分 析 到 采用 比较 复杂 的 实验 手段 来 获得 相关 变化 量 的 过 程 , 总 体 来 说 
存在 适用 性 较 低 、 实 用 性 不 高 等 不 足 。 

DWT 域 隐 写 分 析 的 研究 报道 较 少 , 刘 绍 辉 等 针对 DWT 域 QIM 嵌入 算法 ,提出 了 
基于 DFT 域 能 量 差分 的 检测 算法 ,平均 检测 率 达到 90% ,这 是 检测 DWT 域 隐 写 术 的 一 
个 有 益 尝试 。 
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2. 通用 隐 写 分 析 方 法 


由 于 通用 隐 写 分 析 的 攻击 对 象 包括 了 空域 与 变换 域 隐 写 术 , 是 隐 写 分 析 领 域 不 可 忽 

视 的 部 分 。 
Avcibas 等 提出 的 IQM'sCImage Quality Metrics) 方 法 ,采用 变量 分 析 技 术 来 分 析 和 
选取 可 用 于 区 分 载体 图 像 和 隐藏 图 像 的 质量 度量 ,根据 选取 的 图 像 质量 特征 采用 多 元 回 
归 的 方法 对 图 像 进行 分 类 。 该 方法 能 有 效 检测 多 种 隐 写 方法 ,但 是 需要 对 分 类 器 进行 训 
练 , 性 能 一 般 。 

Farid 等 采用 QFM 分 析 图 像 小 波 域 系 数 及 其 预测 误差 的 高 阶 统 计量 ,再 分 别 采用 
Fisher 线性 判别 式 ,线性 与 非 线 性 支持 向 量 机 来 判别 和 归 类 ,对 DCT 域 隐 写 术 和 以 自然 
图 像 为 载体 的 隐 写 术 效果 较 好 。 但 该 方法 需要 对 分 类 器 进行 训练 ,对 伐 入 量 较 低 的 空域 
隐 写 术 和 OutGuess 的 检测 无 效 。 

通用 隐 写 分 析 主 要 于 绕 典 入 秘密 消息 前 后 待 测 图 像 的 总 体 、 局 部 .相关 等 特征 值 及 
具有 训练 模式 的 判别 方法 进行 研究 ,但 是 通用 特征 的 选取 和 阔 值 的 确定 非常 困难 ,而 且 
复杂 度 偏 高 .实用 性 不 强 、 准 确 性 较 低 ,无 法 控制 虚 警 率 和 漏 报 率 。 


3. 针对 JPEG 图 像 的 隐 写 分 析 方 法 


根据 特征 选取 与 嵌入 算法 的 关系 , 隐 写 分 析 方法 可 分 为 专用 型 和 通用 型 两 种 。 前 者 
主要 根据 载 密 图 像 特征 的 改变 ,来 提取 专 有 特征 进行 检测 ,检测 率 较 高 ,但 实用 性 不 强 ， 
只 对 特定 的 隐 写 术 有 效 ; 后 者 主要 是 寻找 独立 于 典 入 算法 的 统计 特征 向 量 , 根 据 载 体 统 
计 特 性 的 变化 判断 是 否 含有 隐 密 信息 , 它 对 一 系列 的 隐 写 算法 都 有 效 , 实 用 性 较 高 ,但 整 
体检 测 率 较 弱 。 下 面 介绍 针对 JPEG 图 像 的 几 种 典型 隐 写 分 析 算法 。 

D 基于 X 检测 法 

由 于 隐 密 信息 的 嵌入 , 载 密 图 像 和 原始 图 像 的 DCT 系数 直方 图 的 分 布 会 发 生 改变 ， 
统计 ( 卡 方 统计 ) 攻击 就 是 通过 观察 测试 图 像 的 统计 直方 图 来 检测 图 像 中 是 否 含 有 隐 密 
信息 。 该 方法 的 关键 点 在 于 构造 隐 密 信息 的 理论 频率 分 布 。 对 DCT 系数 来 说 ,最 低位 
为 1 的 系数 和 最 低位 为 0 的 系数 构成 一 个 系数 对 ,成 为 POV (Pairs of Value) ,那么 嵌入 
秘密 信息 前 后 最 低位 为 1 和 0 的 这 对 系数 之 和 不 变 ,也 就 是 这 对 POV 的 值 保持 不 变 。 
由 于 嵌入 信息 服从 均匀 分 布 , 那 么 秘密 信息 嵌入 前 后 POV 的 个 数 也 保持 不 变 。 

以 hs 表示 DCT 系数 值 为 2i(i 关 0) 的 数目 , 令 ;一 hz, 经 Jsteg 算法 处 理 后 ,n; 期 望 
fli nu: 


n 


n= Pai haa 一 一- (7-10) 
则 统计 量 
k (i; — tyz 
yG-pD-95 -一 G-1D 
i-1l i 


的 分 布 渐进 (一 1) 个 自由 度 为 X 分 布 。n; 二 x ERN : 
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G-1) = 
p-1i- l j eti dt (7-12) 


27 "(Ez 
若 概率 p Bon 1.008] Fas IB BL CAL Er p 值 非常 小 ,甚至 接近 于 0, 则 说 明 没 有 隐 密 
消息 嵌入 。 

在 嵌入 率 较 高 的 情况 下 ,会 更 好 地 满足 大 数 定理 ;此 外 ,由 于 颜色 对 频 度 差 与 颜色 对 
的 频 度 比 一 般 很 小 ,密度 函数 曲线 前 面部 分 比较 平坦 ,所 以 检测 率 也 会 较 高 。 但 该 方法 
只 适用 于 顺序 信息 的 隐 写 , Westfeld 随后 在 2002 年 提出 的 通用 卡 方 统计 方法 应 用 范围 
要 更 广 一 些 。 

2) 空域 LSB 算法 的 RS 分析 算法 

J. Fridrich 在 2001 年 针对 空域 LSB 置换 算法 提出 了 RS 分 析 算 法 。RS 算法 利用 图 
像 的 空域 相关 性 导出 敏感 对 偶 量 ,来 检测 图 像 中 是 否 含有 隐藏 信息 。 

定义 鉴别 函数 了 来 描述 图 像 的 空间 相关 性 ,函数 了 对 一 个 像素 组 G= Gn nne 
Xs) 指定 一 个 实数 f Gn zz,…,zo)ER, 函 数 定义 如 下 : 


fGiy x2 mz) = Š) | ama | (7-13) 


该 函数 用 来 度量 像素 组 G 内 部 的 不 平滑 性 ; 像素 组 G 越 不 平滑 ,函数 的 值 就 越 大 ， 
LSB RA VRK G 的 不 平滑 性 。 传 统 的 LSB 嵌入 过 程 可 以 用 置换 函数 F 来 描述 ， 
已 :01,23,…,254<>255 改变 灰 度 值 X 的 LSB 相当 于 对 z 利用 置换 函数 F, 。 同 时 
定义 一 个 置换 函数 的 对 偶 概 念 , 移 位 LSB 置换 函数 F- 190.192. 7.255256, 
F, 同 FX 

F_ 一 FiCz 二 1) 一 1 
同时 定义 Fu 为 自身 置换 函数 ,Fo (zx) 二 xz。 

根据 置换 函数 改变 像素 组 鉴别 值 的 方式 定义 了 3 种 像素 组 : 四 常规 类 R, 如果 
f(FCG) f(G); OREX S, 如 果 f(F(G)) 二 f(G); OREA U, 如 果 f(F(G))= 
f(G)。 其 中 F(G) 代 表 对 象 组 G= (zi ,xs,… ,zx,) 中 对 每 一 个 像素 应 用 置换 函数 。 通 常 
对 象 组 G 中 不 同 像素 应 用 不 同类 型 的 置换 函数 ,可 以 通过 指定 一 个 掩 码 算 子 M, M 是 元 
素 值 为 一 1,0,1 的 元 组 ,因此 定义 : 

F(G) = (Fm GO ,Fe Ge; ) «Fu Gr) (7-14) 

原始 图 像 中 ,像素 组 G 使 用 置换 函数 通常 会 使 鉴别 值 增加 ， 若 把 图 像 分 为 若干 组 , 常 
规 组 将 大 于 异常 组 。 对 非 负 掩 码 算 子 M 来 说 ,定义 Ru 常规 类 像素 组 个 数 与 所 有 像素 组 
的 百分比 ,Sw 表示 异常 类 像素 组 与 所 有 像素 组 百分比 ,从 而 Rud Sy IRL SV 
1。RS 分 析 算 法 的 零 消 息 假设 是 : 对 于 载体 图 像 ,Rw 的 值 近似 接近 于 R_wm,Sm 近似 等 于 
S_m: 即 : 

Ry Z Ra 
Su S Su 

LSB 平面 的 随机 变化 使 得 Ru 与 Sw 之 间 的 差异 随 着 嵌入 长 度 的 增加 越 来 越 小 , 改 
变 LSB 平 面 50% 的 像素 之 后 ,就 有 Ru 宇 Su; 但 是 LSB 平面 的 随机 变化 对 于 R_w 和 
S_w 有 相反 的 影响 ,它们 之 间 的 差异 随 着 嵌入 信息 长 度 的 增加 而 增 大 。 

假设 在 图 像 的 LSB 平面 嵌入 长 度 为 p( 像 素 的 百分比 ) 的 秘密 信息 ,Fridrich 经 过 大 
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量 实验 发 现 ,R-m 和 S-w 相 对 于 P 的 变化 曲线 可 以 很 好 地 利用 直线 进行 建 模 , 用 二 次 多 
项 式 近 似 地 逼近 Ru 与 Sw HX P 的 变化 曲线 。 因 此 可 以 通过 计算 R 和 S 像素 组 的 个 
数 ,基于 各 种 约束 关系 ,精确 地 计算 P 的 值 。 


4. 针对 FS 的 隐 写 分 析 算法 


针对 F5 隐 写 术 ,Fridrich 提出 了 相应 的 隐 写 分 析 方 法 , 它 能 够 检测 是 否 存在 隐藏 信 
息 ,并 能 估算 隐藏 信息 长 度 。 该 算法 分 为 两 步 : 首先 确定 区 分 统计 量 T.T 与 被 修改 的 
DCT 系数 总 数 有 关 ; 然 后 确定 统计 量 T 的 基 值 。 
以 hu(d) 表 示 在 载体 图 像 所 有 8X8 的 DCT 矩阵 的 (8,) 位 置 绝对 值 为 d 的 DCT 系 
数 总 和 ,Hw(d) 表 示 在 载 密 图 像 相应 位 置 绝对 值 为 4 的 DCT 系数 的 数目 。 若 F5 算法 改 
动 了 n 个 DCT 系数 , 则 一 个 非 0 的 DCT 系数 被 改动 的 概率 为 : 8 二 n/p, 其 中 zp 为 非 0 的 
DCT 系数 的 总 数 。 因 为 F5 算法 中 系数 的 选择 是 随机 的 ,所 以 Hs(d) 的 期 望 值 可 表 
A 
Hy(d) = A — Phu (d) + Bhy(d +1), d 70 (7-15) 
Hu (0) = hu (0) d- Bh OD) «d = 0 (7-16) 
以 hu Ca) ROSE UPS ER hu(d) 的 估计 ,利用 最 小 均 方 误差 估计 可 得 8 的 最 小 值 
与 hh(d) 和 Hu (d) 的 关系 式 : 
Pu = arg min (LH, (0) — hu (0) — Bhu Xa) F 
FLH,CD — 0 Aha A) — Bhu (ODD) (7-17) 


推导 可 得 : 
B ha (DCHu (0) — h40)0]12- LH, D — 5400] * huD — hu] 
a A'& O0) 十 [LA (D — ha OO T 


最 终 8 值 为 所 选 低频 DCT, DE (0.2) (2. D (2.20) SEX f : 
B= is B +a) (7-19) 


该 算法 的 关键 是 准确 地 估计 出 载体 图 像 的 hu (d) 。 获 得 基准 图 像 分 为 三 步 ， 
CD 将 隐 写 图 像 解 压 到 空域 ; 

Q 利用 4 像素 在 横竖 两 个 方向 上 对 隐 写 图 像 进行 裁减 ; 

C 利用 与 隐 写 图 像 相 同 的 量化 矩阵 进行 压缩 。 


5. 基于 小 波 特 征 函 数 统计 和 矩 的 隐 写 分 析 


基于 小 波 特征 函数 统计 和 矩 的 隐 写 分 析 法 是 一 种 通用 型 的 隐 写 分 析 方法 , 它 使 用 小 波 子 
带 的 特征 函数 统计 和 矩 作为 隐 写 分 析 的 特征 。 一 个 特征 函数 f 的 阶 统计 算 被 定义 为 : 


(7-18) 


y 
MRBIBGOI 
M, = -— (7-20) 


Z 


2 | HCf) | 
Kp. HCÉO | 是 特征 函数 的 幅 值 , 即 图 像 直 方 图 的 DFT。 根 据 离散 形式 的 Chebyshev 


不 等 式 EE HER BLA ERR ri IR «M, 的 值 将 下 降 。 
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表 7-1 基于 直方 图 的 矩 与 基于 特征 函数 的 矩 的 比较 


i 的 阶 次 
两 种 方式 比较 
n=1 n=2 n=3 
EFENA nME: | | z |"td(z))dz 
FEAD nME ^ |z de n : Y^ 
1o * i 


服从 高 斯 分 布 的 情况 : h(z) 二 


A 


3T i 


ERM n E: S |SAD de 


服从 高 斯 分 布 的 情况 ， H = e 


在 表 7-1 中 ,对 直接 根据 图 像 直方 图 计算 的 前 3 阶 徐 与 根据 图 像 直方 图 特征 函数 计 
算 的 前 3 阶 矩 做 了 一 个 比较 。 具 体 地 说 ,基于 特征 函数 的 mamari) ,而 基于 
直方 图 的 阶 矩 相当 于 w。 因 此 ,基于 特征 函数 的 矩 对 隐 密 信息 的 标准 方差 o 的 改变 更 


为 敏感 。 


A 
4 0 -1 O0 O ^ Qo to - 


FH 
PUN 
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什么 是 数字 图 像 ?数字 图 像 取 证 有 哪些 特点 ? 

数字 图 像 内容 安 全 与 哪些 学 科 之 间 有 关联 ? 它们 之 间 如 何 相 互联 系 和 影响 ? 
数字 图 像 安全 常见 攻防 手段 有 哪些 ? 

简 述 数字 图 像 加 密 技术 常用 方法 。 

查阅 一 个 数字 图 像 加 密 算法 , 写 一 篇 阅读 报告 。 
仿真 完成 一 个 数字 图 像 水 印 算法 。 

数字 图 像 水 印 技术 今后 的 发 展 方向 是 什么 ? 
检索 最 新 的 数字 图 像 水 印 和 数字 图 像 隐 写 文献 , 写 一 篇 阅读 报告 。 
作为 数字 图 像 完整 性 取证 的 隐 密 分 析 取 证 技术 分 为 几 个 阶段 ,目前 所 达到 的 技术 


«ay 


主要 集中 在 哪个 阶段 ,要 想 取证 结果 作为 法 庭 证 据 则 需要 取得 怎样 的 结果 ? 


Dol] 


密 分 析 取 证 方法 。 
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第 8 音 Sho 1 1. 
数字 音频 内 容 安全 


本 章 学 习 目标 

数字 音乐 的 发 展 使 得 数字 音频 的 安全 成 为 当前 数字 内 容 安 全 领域 的 一 个 重要 研究 

。 本 章 将 对 数字 音频 内 容 安全 的 有 关 概 念 和 方法 进行 介绍 ,主要 包括 数字 音频 内 容 
ul. 频 隐 写 、 数 字音 频 隐 写 分 析 以 及 数字 音频 取证 等 方面 。 

通过 本 章 学 习 , 应 掌握 以 下 内 容 : 

(1) 数字 音频 内 容 加 密 技术 。 

(2) 数字 音频 水 印 技术 。 

(3) 数字 音频 隐 写 分 析 技术 。 

(4) 数字 音频 取证 技术 。 


8.1 数字 音频 内 容 安全 基本 概念 


截止 到 2009 年 底 ,我 国 互联 网 使 用 人 数 已 达 3. 84 亿 。 而 在 所 有 网 络 应 用 中 ,使 用 
频率 最 高 的 网 络 应 用 是 网 络 音乐 ,使 用 率 高 达 83. 5%。 这 意味 着 , 仅 在 我 国 拥 有 收听 、 下 
载 、 分 享 网 络 音乐 习惯 的 用 户 数 就 高 达 3. 2 亿 。 由 于 数字 媒体 产品 具有 容易 复制 .保存 、 
算 改 和 传播 的 特点 ,非法 上 传 . 下 载 . 算 改 网 络 音乐 时 有 发 生 。 由 于 没有 从 技术 上 彻底 解 
决 如 何 防止 信道 窃听 和 实施 盗版 源头 追踪 这 两 个 问题 ,盗版 现象 仍然 大 量 存 在 。 如 何 保 
证 数字 音频 的 内 容 安 全 成 了 一 个 重要 的 难题 。 

要 研究 数字 音频 的 安全 问题 ,就 需要 了 解数 字音 频 区 别 于 其 他 信息 载体 的 特点 , 需 
要 了 解 人 类 听觉 的 特殊 性 。 因 此 了 解 语音 的 基础 知识 ,以 及 经 常 使 用 的 语音 处 理 方法 ， 
对 于 设计 好 的 音频 保护 方案 有 着 重要 的 指导 意义 。 如 果 能 够 很 好 地 利用 语音 的 各 种 处 
理 方法 ,可 以 设计 出 对 各 种 处 理 方法 具有 和 鲁 棒 性 的 音频 数字 水 印 和 隐 写 算法 。 


8.1.1 音频 信号 的 数字 表示 


自然 界 中 的 音频 信号 是 幅度 随时 间 而 变 的 一 维 连续 信号 ,不 仅 在 时 间 上 是 连续 的 ， 
而 且 在 幅度 上 也 是 连续 的 。 它 的 频率 范围 一 般 是 20 一 20000Hz, 称 为 模拟 信号 ,计算 机 
是 无 法 对 这 种 模拟 信号 进行 处 理 的 。 
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计算 机 只 能 处 理 时 间 上 和 幅度 上 都 是 有 限 的 信号 ,也 就 是 数字 信号 ,要 对 声音 信号 
进行 计算 机 处 理 ,就 必须 对 声音 信号 进行 数字 化 ( 即 A/D 转换 )。 

数字 化 实际 上 就 是 采样 和 量化 、 编 码 。 连 续 时 间 的 离散 化 通过 采样 来 实现 ,在 某 些 
特定 的 时 刻 对 模拟 信号 进行 测量 叫做 采样 (sampling) ,每 隔 相等 间隔 采样 一 次 ,这 种 采样 
称 为 均匀 采样 ,下 面 使 用 的 声音 文件 都 是 均匀 采样 。 连 续 幅 度 的 离散 化 通过 量化 来 实 
现 , 也 就 是 把 信号 的 强度 划分 成 不 同等 级 。 如 果 幅 度 的 划分 是 等 间隔 的 ,就 称 为 线性 量 
化 ,否则 就 称 为 非 线性 量化 。 采 样 的 精度 、 样 本 的 大 小 是 用 每 个 声音 样本 的 比特 率 (b/s) 
表示 的 , 它 反映 度量 声音 波形 幅度 的 精度 。 脉 冲 编码 调制 (Pulse Code Modulation. 
PCM) 是 最 简单 的 波形 编码 方式 。 


8.1.2 音频 文件 的 存储 格式 


要 在 计算 机 内 播放 或 处 理 音频 文件 ,需要 对 声音 文件 进行 数 、 模 转换 ,这 个 过 程 同样 
由 采样 和 量化 构成 。 人 耳 所 能 听 到 的 声音 ,最 低 的 频率 是 从 20Hz 起 一 直到 最 高 频率 
20kHz, 而 20kHz 以 上 的 声音 人 耳 是 听 不 到 的 ,因此 音频 的 最 大 带宽 是 20kHz, 所 以 采样 
速率 需要 介 于 40kHz 与 50kHz 之 间 ,而 且 对 每 个 样本 需要 更 多 的 量化 比特 数 。 音 频数 
字 化 的 标准 是 每 个 样本 16 位 ( 即 96dB) 的 信 品 比 ,采用 线性 脉冲 编码 调制 PCM ,每 一 量 
化 步 长 都 具有 相等 的 长 度 。 在 音频 文件 的 制作 中 , 正 是 采用 了 这 一 标准 。 

在 互联 网 和 各 种 机 器 上 ,声音 文件 的 格式 很 多 ,比较 流行 的 有 以 WAV、AU、AIFR、 
SND 为 扩展 名 的 文件 格式 。 其 中 WAV 格式 主要 用 在 PC 上 ,AU 格式 多 用 于 UNIX T. 
作 站 ,AIFR 和 SND 则 主要 用 于 苹果 机 和 SGI 工作 站 ,而 在 互联 网 上 绝 大 多 数 是 MP3 fit 
式 的 文件 。MP3 格式 是 MPEG-1 标准 的 第 三 层 , 因 其 具有 非常 高 的 压缩 率 而 得 到 广泛 
应 用 。 但 由 于 MP3 文件 是 焙 编 码 ,无 法 直接 得 到 音频 信号 的 原始 幅 值 ,也 就 无 法 直接 对 
其 作 信号 处 理 。 因 此 使 用 的 水 印 载体 是 Windows NT 系统 使 用 的 WAV 格式 音频 文件 。 

对 于 现在 网 络 上 流行 的 MP3 文件 , 若 要 对 其 进行 版 权 保护 ,可 以 将 MP3 文件 转化 
为 WAV 格式 文件 ,将 水 印信 息 嵌 入 到 WAV 格式 文件 ,再 将 WAV 格式 文件 转化 为 
MP3 文件 。 这 要 求 水 印 对 这 一 转化 过 程 是 鲁 棒 的 ,因为 从 WAV 格式 文件 转化 为 MP3 
文件 是 一 个 有 损 压 缩 的 过 程 。 此 外 ,采样 频率 会 影响 数据 隐藏 ,因此 它 给 出 了 可 用 频谱 
的 上 限 ( 如 果 信 号 的 采样 频率 为 8kHz, 则 引入 的 修改 分 量 的 频率 不 会 超过 4kHz)。 对 于 
大 多 数 已 有 的 数据 隐藏 技术 而 言 ,可 用 的 数据 空间 与 采样 频率 的 增长 至 少 呈 线性 关系 。 


8.1.3 音频 信号 的 传输 环境 


在 实际 使 用 中 ,含水 印 的 音频 信号 从 编码 到 解码 之 间 有 多 种 可 能 的 传播 途径 。 下 面 
列举 最 普通 的 四 种 情形 。 

(1) 声音 文件 从 一 台 机 器 通过 存储 介质 或 网 络 复制 到 另 一 台 机 器 ,其 中 没有 任何 形 
式 的 改变 。 编 码 方 和 解码 方 的 采样 率 完全 一 样 。 

(2) 信号 仍然 保持 数字 的 形式 ,但 采样 率 发 生变 化 。 这 一 变化 保持 了 大 多 数 信号 的 
幅度 和 相位 值 ,但 是 改变 了 信号 的 时 域 特性 。 
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(3) 信号 被 转换 为 模拟 形式 ,通过 模拟 线路 进行 传播 ,然后 在 终端 被 重新 采样 。 在 此 
过 程 中 信号 的 幅度 、 量 化 方式 和 时 域 采 样 率 都 得 不 到 保持 ,但 在 这 种 情形 下 信号 的 相位 
值 可 以 得 到 保持 。 

(4) 信号 在 空气 中 传播 ,经 过 麦克 风 重 新 采样 。 这 时 的 信号 受到 未 知 的 非 线性 改变 ， 
会 导致 相位 改变 、 幅 度 改变 不同 频 率 成 分 的 漂移 和 产生 回声 等 。 

通过 比较 四 种 情形 ,可 以 知道 在 第 一 种 情形 下 ,音频 信号 在 传输 中 没有 改变 。 而 在 
第 四 种 情况 下 音频 信号 在 传输 中 发 生 的 变化 最 大 。 


8.1.4 人 类 听觉 特性 


人 类 听觉 系统 对 音频 文件 中 附加 的 随机 噪声 敏感 ,并 能 觉察 出 征 小 的 扰动 。 人 
耳 听 觉 系统 具有 复杂 的 特性 ,涉及 有 关心 理 声学 和 生理 声学 方面 的 问题 ,通常 需 用 
非 线性 模型 表示 。 心 理 声学 的 一 个 重要 特性 就 是 人 耳 的 掩蔽 效应 ,声音 信号 在 人 的 
听觉 系统 中 会 经 过 非 线性 加 工 ,掩蔽 效应 正 是 由 于 这 种 听觉 的 非 线 性 引起 的 常见 心 
理 声 学 现象 。 

首先 ,人 的 听觉 具有 掩蔽 效应 。 掩 蔽 效应 是 指 一 个 较 弱 但 可 以 听 到 的 声音 由 于 另外 
一 个 较 强 的 声音 的 出 现 而 变 得 无 法 听 到 的 现象 。 掩 项 的 效果 依赖 于 掩蔽 音 和 被 掩蔽 音 
的 时 域 和 频 域 特性 。 因 此 听觉 掩蔽 可 以 分 为 频 域 掩 珊 和 时 域 掩蔽 。 频 域 扼 项 指 在 频 域 
发 生 的 掩蔽 现象 。 如 果 在 一 定 频 率 范围 内 ,同时 存在 能 量 相差 一 定 程度 的 一 强 一 弱 两 个 
信号 时 , 弱 音 不 被 人 耳 察觉 , 即 被 强 音 * 掩 蔽 ? 掉 , 则 较 强 的 音 称 为 掩蔽 音 , 弱 音 称 为 被 措 
项 音 。 把 一 个 纯音 调 作为 目标 ,如 果 它 的 声 压 级 低 于 绝对 阔 值 (安静 时 的 听觉 阔 值 ) , 它 
是 听 不 见 的 。 由 于 一 个 较 强 信号 的 存在 ,听觉 阅 值 不 同 于 安静 时 的 阔 值 ,在 接近 较 强 信 
号 频率 的 频率 处 ,听觉 阔 值 被 提高 ,新 闻 值 称 为 掩蔽 阔 值 , 当 信号 的 声 压 级 低 于 掩蔽 阔 值 
时 , 它 被 掩 项。 一 个 掩蔽 音 的 掩蔽 阔 值 依赖 于 频率 、 声 压 级 ,以 及 撼 蔽 和 被 掩蔽 信号 的 纯 
音 或 噪音 特性 。 用 一 个 宽带 的 噪音 掩蔽 一 个 纯音 比 用 一 个 纯音 掩蔽 一 个 宽带 的 噪音 要 
容易 。 而 且 , 信 和 号 频率 愈 高 就 愈 易 被 掩蔽 。 时 域 掩蔽 包括 向 前 掩蔽 和 向 后 掩蔽 。 向 前 掩 
项 是 指 较 强 的 掩蔽 音 出 现 之 前 较 弱 的 被 掩蔽 音 无 法 听 到 ,向 后 掩蔽 是 指 较 强 的 掩蔽 音 消 
失 后 较 弱 的 被 掩蔽 音 无 法 听 到 。 一 般 , 向 前 掩蔽 发 生 在 掩蔽 音 出 现 前 5 — 20ms. I8] Je f 
蔽 发 生 在 掩蔽 音 消 失 后 50 一 200ms。 频 域 和 时 域 掩蔽 效应 有 各 自 的 特性 及 局 限 , 频 域 掩 
蔽 效应 局 限 在 频率 域 , 而 时 域 掩蔽 效应 则 局 限 在 时 间 域 。 

其 次 ,人 耳 对 声音 信和 号 的 绝对 相位 不 敏感 ,而 只 对 其 相对 相位 敏感 。 另 外 ,人 耳 对 不 
同 频段 声音 的 敏感 程度 不 同 ,通常 人 耳 可 以 听 到 20Hz 一 18kHz 的 信号 ,其 中 对 300 一 
3400Hz 范围 内 的 信号 最 为 敏感 ,幅度 很 低 的 信号 也 能 被 听见 ,而 在 低频 区 和 高 频 区 ,能 
被 人 耳 听见 的 信号 幅度 要 高 得 多 。 即 使 对 同样 声 压 级 的 声音 ,入 耳 实际 感觉 到 的 音量 也 
是 随 频率 而 变化 的 。 要 提高 水 印信 号 的 不 可 感知 性 ,可 将 水 印信 号 或 私密 信息 加 载 在 掩 
蔽 阔 值 较 高 的 高 频 部 分 。 
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8.2 数字 音频 内 容 加 密 技 术 


8.2.1 数字 音频 加 密 技术 简介 


音频 加 密 技 术 包 括 两 个 元 素 : 算法 和 密 钥 。 算 法 是 将 数字 音频 信息 与 一 串 数 字 ( 密 
钥 ) 的 结合 ,产生 不 可 理解 的 密 文 的 步骤 , 密 钥 是 用 来 对 数据 进行 编码 和 解码 的 一 种 算 
法 。 在 安全 保密 中 ,可 通过 适当 的 密 钥 加 密 技 术 和 管理 机 制 来 保证 网 络 的 信息 安全 。 由 
于 密码 体制 包括 对 称 密 钥 体 制 和 非 对 称 密 钥 体 制 两 种 ,相应 地 ,音频 数据 加 密 技术 也 分 
为 两 类 , 即 音频 对 称 加 密 ( 私 人 密 钥 加 密 ) 和 非 对 称 加 密 ( 公 开 密 钥 加 密 ) 。 


8.2.2 数字 音频 加 密 技术 分 类 


按 加 密 算法 在 数字 音频 编码 压缩 过 程 的 所 处 位 置 ,音频 数据 加 密 方法 可 分 为 完全 加 
密 ( 位 置 中 和 位 置 @) 和 选择 性 加 密 ( 位 置 @), 见 图 8-1。 


原始 数据 2 L-9 D mem | @ ~ 


压缩 过 程 
图 8-1 音频 内 容 加 密 位 置 


1. 完全 加 密 


具体 来 说 ,完全 加 密 又 可 分 为 对 原始 多 媒体 数据 ( 即 压缩 前 ) 的 加 密 和 压缩 后 数据 的 
加 密 。 该 类 加 密 方法 把 多 媒体 数据 当成 普通 二 进 制 数据 ,直接 使 用 传统 的 RSA, DES 等 
加 密 算法 。 

音频 的 完全 加 密 不 需要 考虑 音频 的 编码 格式 ,将 全 部 的 数据 加 密 , 由 于 加 密 的 数据 
量 大 , 故 具 有 较 高 的 安全 性 。 但 是 当 音 频数 据 量 较 大 时 ,这 种 方法 的 效率 较 低 ,同时 加 密 
后 的 音频 因为 数据 格式 的 改变 而 不 能 支持 直接 操作 。 


2. 选择 性 加 密 


选择 性 加 密 (selective encryption) 又 称 部 分 加 密 (partial encryption)。 该 类 算法 通 
过 对 精心 选择 的 部 分 重要 数据 进行 加 密实 现 所 需 的 加 密 效果 。 部 分 加 密 技 术 最 初 见于 
1995 年 ,设计 的 初 囊 主 要 是 为 了 解决 视频 点 播 (Video On Demand. VOD) ffl MPEG-1 的 
加 密 传 输 问题 。 通 过 结合 多 媒体 编 解 码 过 程 , 挑 选 出 一 些 对 多 媒体 解码 影响 大 、 带 有 丰 
富 信 息 的 参数 ,然后 对 参数 进行 加 密 。 后 来 选择 性 加 密 技 术 逐 渐 应 用 到 图 像 和 音频 处 
理 。 选 择 性 加 密 算 法 大 大 降低 了 加 密 的 数据 量 , 提 高 了 加 密 速 度 , 但 降低 了 算法 的 安全 
性 。 如 仅仅 置 乱 DCT 块 内 系数 无 法 抵抗 已 知 明文 攻击 。 该 类 算法 适用 于 实时 性 要 求 较 
高 、 但 安全 要 求 不 太 严格 的 应 用 场合 。 

另外 ,选择 性 加 密 可 以 控制 加 密 程 度 , 能 应 用 于 “预览 版 "“ 体 验 版 ?多 媒体 产品 的 编 
辑 。 常 见方 法 有 只 加 密 音 频 的 某 个 区 域 . 轻 微 加 密 音 频 的 某 一 部 分 模糊 化 部 分 原始 音 
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安全 的 特点 。 要 注意 的 是 ,加 密 后 的 多 媒体 数据 必须 符合 文件 的 格式 标准 , 即 加 密 后 的 
多 媒体 依旧 能 被 标准 的 解码 设备 所 读 取 。 


8.3 数字 音频 隐 写 与 水 印 技术 


音频 隐 写 术 和 数字 水 印 的 研究 是 随 着 信息 技术 的 发 展 受到 重视 并 莲 勃 发 展 起 来 的 。 
音频 信息 在 网 络 上 的 传递 ,发布 和 扩散 带 来 了 一 系列 的 问题 和 应 用 需求 。 从 总 体 上 来 说 
可 以 分 为 两 大 部 分 : 伪装 式 保密 音频 信息 传递 ( 即 隐 写 术 ) 和 音频 信息 的 版 权 保护 ( 即 数 
字 水 印 ) 。 隐 写 术 主要 应 用 在 需要 安全 保密 通信 的 部 门 , 利 用 音频 信息 中 的 元 余 空 间 携 
带 隐蔽 信息 ,达到 秘密 信息 伪装 传递 的 目的 ;同时 , 隐 写 术 还 要 研究 其 对 立 面 一 一 隐秘 信 
息 的 分 析 和 检测 ,这 与 密码 编码 学 和 密码 分 析 学 的 关系 是 类 似 的 ,信息 隐藏 与 隐秘 信息 
分 析 是 一 对 矛盾 的 统一 体 , 它 们 相互 对 立 又 相互 促进 。 数 字 水 印 从 实质 上 说 也 是 一 类 信 
息 隐 藏 ,但 是 其 目的 不 是 为 了 保密 通信 ,而 是 为 了 标明 载体 本 身 的 一 些 信息 ,如 音频 信息 
的 创作 者 .版权 信息 、 使 用 权限 等 一 系列 需要 标明 的 信息 ,利用 数字 水 印 , 还 可 以 跟踪 音 
频 产品 的 非法 传播 和 扩散 ,打击 盗版 。 数 字 水 印 技术 目前 正 处 于 持续 深入 发 展 的 阶段 ， 
应 用 领域 也 在 快速 扩展 。 


8.3.1 音频 数据 中 的 常用 隐 写 算法 


音频 隐 写 术 算 法 的 研究 上 ,许多 方法 都 是 直接 从 图 像 隐 写 术 中 借鉴 过 来 的 ,当然 
也 有 一 些 是 音频 特有 的 。1996 4E. W. Bender 等 在 IBM 的 杂志 上 发 表 的 “数据 隐藏 技术 ” 
一 文中 ,较为 系统 地 对 音频 为 载体 的 低位 嵌入 法 (LSB)、 相 位 嵌入 法 直接 序列 扩展 频谱 
dk A iE (Direct Sequence Spread Spectrum, DSSS) 和 回声 嵌入 法 作 了 介绍 。 
近年 来 有 关 音 频 信息 隐藏 技术 方面 的 研究 发 展 很 快 ,很 多 基于 HAS 的 方法 被 提出 ， 
常用 的 方法 有 以 下 几 种 。 


1. 最 不 重要 位 法 (LSB) 


LSB 是 信息 隐藏 的 最 简单 有效 的 一 种 方法 ,通过 将 原始 数据 的 部 分 样本 值 的 最 低 
比特 位 或 最 低 几 个 比特 位 用 代表 秘密 数据 的 二 进 制 位 蔡 换 达到 将 秘密 信息 隐藏 到 音频 
中 的 目的 。 在 接收 端 ,只 需要 从 相应 位 置 提 取出 秘密 信息 比特 即 可 。 

LSB 算法 简单 易 实 现 , 信 息 嵌 入 和 提取 的 速度 快 ,可 以 隐藏 的 数据 量 大 ,但 是 其 安全 
性 很 差 ,攻击 者 只 需要 对 信道 简单 地 加 上 噪声 干扰 或 者 对 数据 进行 亚 采 样 和 压缩 编码 等 
处 理 都 会 造成 整个 隐秘 信息 的 丢失 。 为 了 加 大 检测 秘密 数据 的 难度 ,可 以 用 一 段 伪 随 机 
序列 来 控制 嵌入 秘密 的 位 置 . 并 采用 不 同 的 加 密 方式 对 数据 本 身 和 内 入 过 程 进行 加 密 。 
为 了 提高 鲁 棒 性 同时 保证 隐蔽 性 ,可 在 嵌入 过 程 中 根据 音频 信号 的 能 量 进 行 数 据 嵌 入 位 
的 选择 ,同时 确保 原 信号 的 最 小 说 入 失真 。 


ss 数字 音频 内 容 安全 
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2. 相位 隐藏 法 


相位 编码 是 利用 人 类 听觉 系统 对 声音 绝对 相位 的 不 敏感 ,但 对 相对 相位 敏感 的 特性 
进行 信息 隐藏 。 

在 相位 编码 中 ,隐藏 的 数据 是 用 相位 谱 中 特定 的 相位 或 相位 变化 来 表示 ,可 将 音频 
信号 分 段 ,每 段 做 DFT, 数 据 只 隐藏 在 第 一 段 中 ,用 代表 秘密 信息 的 参考 相位 蔡 换 第 一 段 
的 绝对 相位 ,为 保证 信号 间 的 相对 相位 不 变 , 所 有 随后 信号 的 绝对 相位 也 同时 改变 。 接 
受 端 只 要 提取 第 一 段 的 相位 谱 信 息 即 可 。 系 统 参 数 包 括 段 的 大 小 和 相位 的 变化 量 。 为 
提高 提取 信息 的 准确 性 ,一 般 取 相位 偏 移 值 为 土 x/2。 通 常 来 说 ,相位 隐藏 方法 的 信道 容 
EH 8 一 32b/s。 算 法 对 载体 信号 的 再 采样 具有 和 鲁 棒 性 ,但 对 绝 大 多 数 音频 压缩 算法 
人 敏感。 


3. 回声 隐藏 法 


主要 是 利用 了 人 耳 听觉 系统 的 另 一 个 特性 , 即 音频 信号 在 时 域 的 向 后 屏蔽 作用 ,在 
离散 信号 中 引入 回声 ,通过 修改 信号 和 回声 之 间 的 延迟 来 编码 水 印信 息 ,提取 时 ,计算 每 
个 信号 片断 中 信号 倒 谱 的 自 相关 函 数 ,在 时 延 上 会 出 现 峰值 ,对 滤波 、 重 采样 有 损 压 缩 
等 不 敏感 ,但 容易 被 第 三 方 用 回声 检测 的 方法 检测 出 来 。 

回声 算法 具有 较 好 的 透明 性 ,但 没有 达到 令 人 满意 的 正确 提取 率 。 为 此 ,有 人 提出 
在 信息 提取 时 使 用 指数 序列 加 权 隐 写 数 据 段 的 改进 方案 ,还 提出 了 基于 衰减 系数 的 回声 
隐藏 算法 。 


4. 变换 域 法 


变换 域 法 在 图 像 水 印 中 已 经 得 到 了 广泛 的 应 用 ,现在 也 越 来 越 多 地 应 用 于 音频 水 印 
中 。 这 一 方法 的 基本 思想 是 通过 将 秘密 信息 嵌入 到 数字 作品 的 某 个 变换 域 中 达到 将 秘 
密 信 息 戏 入 到 隐秘 载体 中 最 重要 部 分 的 目的 ,这 样 ,只 要 攻击 者 不 过 分 破坏 隐蔽 文件 的 
"T Wr fit BE ,嵌入 信号 中 的 隐秘 信息 就 不 会 被 删除 。 比 较 常 见 的 变换 域 法 有 离散 傅 里 叶 变 
换 法 \ 离 散 余弦 变换 法 .小 波 变换 法 、 倒 频谱 域 等 。 这 些 方法 将 秘密 信息 嵌入 到 频 域 变换 
的 系数 当中 ,并 借鉴 扩展 频谱 等 技术 对 待 隐藏 信息 进行 有 效 的 编码 ,从 而 提高 了 透明 性 
和 和 鲁 棒 性 ,同时 还 适当 利用 滤波 技术 消除 信息 隐藏 可 能 引入 的 高 频 品 声 , 从 而 增加 对 低 
频 滤 波 攻 击 的 抵抗 力 。 

基于 变换 域 的 方法 用 于 音频 信息 隐藏 可 以 更 好 地 抵抗 各 种 信号 处 理 ,而 且 还 保持 了 
对 人 类 听觉 的 不 可 觉察 性 。 


8.3.2 ”音频 隐 写 工具 


近年 来 ,人 们 已 经 提出 了 不 少 成 功 的 隐 写 方法 。 一 些 算法 被 陆续 开发 成 隐 写 工具 ， 
其 中 不 少 可 以 免费 获得 ,如 在 http://jitc. com/Steganography/toolmatrix. htm 上 给 出 了 
数 以 百 计 的 隐 写 软件 。 其 中 S-Tools、Hide4PGP 等 可 以 实现 WAV 声音 信号 的 信息 隐 
藏 。 考 虑 到 信息 传送 的 安全 性 ,这 些 软 件 一 般 先 对 秘密 信息 进行 数据 压缩 、 加 密 预 处 理 ， 
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再 将 秘密 信息 嵌入 到 载体 信号 的 最 低位 来 达到 信息 隐藏 的 目的 ,隐藏 容量 由 载体 的 长 度 
决定 。 
下 面 以 S- Tools 为 例 ,介绍 可 以 实现 音频 和 语音 信息 隐藏 的 软件 工具 。 
S-Tools 采用 了 加 密 机 制 将 信息 隐藏 在 BMP 或 GIF 图 像 文件 中 ,也 可 以 隐藏 在 
WAV 的 声音 文件 中 。 现 阶段 支持 的 加 密 方法 包括 IDEA、DES、3DES 等 。 
通常 , Windows 中 的 WAV 文件 声音 样本 的 位 数 是 8 位 或 者 16 位 。 当 用 8 位 来 表 
示 时 ,声音 样本 可 能 取 值 为 0 一 255 之 间 的 整数 ,而 对 于 16 位 ,声音 样本 的 取 值 是 在 0 一 
65535 的 范围 之 内 。 
S-Tools 采用 的 是 在 声音 信号 的 最 不 重要 位 隐藏 文件 。 其 基本 算法 原理 如 下 : 
假设 声音 样本 信号 包括 以 下 字 节 : 
132 134 137 141 121 101 74 38 
则 三 进 制 值 表示 为 : 
10000100 10000110 10001001 10001101 
01111001 01100101 01001010 00100110 
要 隐藏 的 二 进 制 序列 为 11010101(213), 则 声音 信号 中 的 每 个 字 节 的 LSB 都 会 被 这 
个 字符 的 比特 位 代替 ,结果 为 : 
133 135 136 141 120 101 74 39 
二 进 制 表示 为 : 
10000101 10000111 10001000 10001101 
01111000 01100101 01001010 00100111 
可 以 看 出 ,新 的 字 节 串 和 原始 的 字 节 串 之 间 差 别 不 大 ,人 耳 一 般 不 能 察觉 出 其 中 的 
不 同 ,以 上 就 是 S-Tools 的 嵌入 原理 。S-Tools 是 离散 嵌入 方案 , 它 利 用 密 钥 随机 选择 信 
息 隐 藏 的 位 置 。 


8.3.3 音频 数字 水 印 基本 原理 


数字 水 印 模型 是 数字 水 印 算法 的 基础 ,数字 音频 水 印 中 常用 的 算法 模型 与 图 像 水 印 
等 类 似 。 图 8-2 是 针对 音频 水 印 的 算法 模型 ,这 个 模型 由 Voloshynovskiy 针对 图 像 水 印 
提出 的 ,但 是 同样 适用 于 音频 水 印 。 其 中 ,水 印 编码 环节 负责 隐秘 信息 加 密 , 纠 错 编码 。 
心理 声学 模型 提供 掩蔽 囚 值 信息 来 确定 水 印 最 大 可 能 嵌入 强度 。 水 印 提取 环节 与 水 印 
嵌入 环节 相对 应 。 水 印 检测 环节 负责 判断 水 印 的 存在 性 ,但 是 不 提供 水 印 的 内 容 。 水 印 


BERMA I T 心理 声学 模型 
AERA j ene. jH kenn SURE 
隐秘 信息 一 一 | 水 印 编码 一 IE 
TE. 
em XB AW 水 印 提取 阶段 


图 8-2 音频 水 印 算法 基本 模型 
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解码 环节 负责 提取 隐秘 信息 。 

这 个 模型 是 个 基本 模型 ,具体 水 印 算法 可 能 只 包含 其 中 的 几 个 环节 ,例如 回声 隐藏 
模型 没有 明显 包含 心理 声学 模型 环节 ,虽然 它们 间接 利用 了 听觉 系统 感知 模型 特性 。 男 
外 ,如 果 水 印信 息 本 身 是 个 伪 随 机 序列 , 则 不 会 包含 水 印 解 码 环 节 。 


8.3.4 数字 音频 水 印 的 基本 要 求 


要 想 成 功 地 在 数字 音频 媒体 中 嵌入 水 印 , 除 了 满足 水 印 框架 (GWF) 的 基本 要 求 外 ， 
考虑 到 音频 数据 和 人 耳 听 觉 的 特性 ,还 应 注意 以 下 几 方 面 的 要 求 ， 

CD 对 数据 变换 处 理 操 作 的 鲁 棒 性 。 这 就 要 求 水 印 本 身 应 能 经 受 得 住 各 种 有 意 或 无 
意 的 变换 (攻击 )。 典 型 的 变换 有 倒 加 噪声 、 数 据 压 缩 、 滤 波 、 重 采样 、 几 何 变 换 , 统 计 攻 
击 等 。 

(2) 知觉 相似 性 。 数 字 水 印 是 在 对 象 中 戏 入 一 定量 的 隐蔽 信息 ,为 使 得 第 三 方 不 易 
察觉 这 种 嵌入 信息 , 需 谨 慎 选 择 嵌 入 方法 使 嵌入 信息 前 后 不 产生 可 感知 的 变化 。 这 种 知 
觉 相 似 性 在 理论 上 可 用 “知觉 相似 性 函数 ”Sim(X,Y) 来 描述 。 数 字音 频 中 两 个 信号 的 相 
关 性 函数 可 用 作 相 似 性 函数 。 

(3) 是 否 需要 原始 数据 进行 信息 提取 ,这 一 要 求 将 影响 方案 的 用 途 和 性 能 。 根 据 数 
据 嵌 和 人 和 提取 方案 的 不 同 设 计 , 有 些 方案 可 以 不 需要 借助 于 原始 数据 进行 信息 提取 。 

(4) 提取 误 码 率 。 低 误 码 率 也 是 音频 水 印 方案 中 的 一 个 重要 技术 指标 。 因 为 一 方面 
存在 来 自 物理 空间 的 干扰 , 另 一 方面 信道 中 传输 的 信号 会 发 生 衰减 和 畸变 ,再 加 上 人 为 
的 数据 变换 和 攻击 。 

(5) 嵌入 数据 量 指标 。 根 据 用 途 的 不 同 ,在 有 些 应 用 场合 中 须 保 证 一 定 的 嵌入 数 
据 量 。 


8.3.5 数字 音频 水 印 的 算法 分 类 


音频 水 印 的 分 类 方法 有 不 同 的 标准 ,从 大 的 方面 来 分 ,可 分 为 鲁 棒 型 水 印 和 脆弱 型 
水 印 。 

鲁 棒 型 水 印 主要 用 于 数字 产品 的 版 权 保护 , 它 必须 保证 对 原始 版 权 的 准确 无 误 的 标 
识 。 因 为 数字 水 印 时 刻 面临 着 用 户 或 侵权 者 无 意 或 恶意 的 破坏 ,因此 ,和 鲁 棱 型 水 印 技术 
必须 保证 在 宿主 信号 可 能 发 生 的 各 种 失真 变换 的 情况 下 ,以 及 各 种 恶意 攻击 的 情况 下 都 
具备 很 高 的 抵抗 能 力 。 

脆弱 型 数字 水 印 主 要 用 于 数据 的 真 伪 鉴 别 和 完整 性 鉴定 ,又 称 为 认证 。 该 水 印 技术 
在 原始 真实 信号 中 嵌入 某 种 标记 信息 ,通过 鉴别 这 些 标记 信息 的 改动 情况 ,达到 对 原始 
数据 完整 性 检测 的 目的 。 

如 果 从 信号 处 理 的 角度 分 类 ,音频 水 印 算法 又 可 分 为 时 间 域 算法 、 频 域 算法 以 及 压 
缩 域 算法 。 


1. 时 间 域 算法 
时 间 域 算法 在 时 间 域 上 将 水 印 直 接 隐藏 在 数字 音频 信号 。 时 间 域 水 印 算法 的 关键 
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是 水 印 嵌 入 的 位 置 ,为 了 使 嵌入 的 水 印 有 更 好 的 稳健 性 ,水 印 的 嵌入 位 置 要 充分 利用 人 
类 听觉 系统 的 特点 。 

典型 的 时 间 域 嵌入 方法 是 最 低 比 特 位 LSB 方法 ,通过 把 每 个 采样 点 的 最 低 比特 位 用 
一 个 水 印 比 特 来 代替 ,可 以 把 大 量 的 数据 植 人 到 音频 信号 中 。 这 种 方法 的 主要 缺点 是 鲁 
棒 性 较 差 ,如 果 不 采用 元 余 技 术 , 则 水 印信 息 很 容易 被 噪声 、 重 采样 等 所 破坏 ,实用 价值 
不 大 。 有 学 者 提出 了 基于 音频 段 能 量 量 化 的 时 间 域 水 印 方案 ,水 印 提取 无 须 原始 音频 参 
与 。 该 算法 的 主要 思想 是 根据 即将 嵌入 的 水 印 位 对 音频 段 的 能 量 进行 量化 调制 ,以 一 定 
的 比例 修改 音频 段 各 采样 点 的 幅 值 使 此 段 能 量变 化 为 量化 后 的 值 。 也 可 将 音频 信号 划 
分 为 若干 个 包含 相同 采样 点 的 段 , 每 一 段 划分 为 若干 个 包含 相同 采样 点 的 节 , 对 每 段 前 
二 节 的 能 量 进行 比较 ,结合 水 印信 号 及 HAS 的 掩蔽 特性 ,采取 不 改变 和 缩小 音频 信号 能 
量 的 方法 ,在 数字 音频 中 嵌入 水 印 。 


2. 频 域 算法 


频 域 算法 将 对 某 一 帧 信号 频 域 系数 的 修改 扩散 到 该 帧 所 有 的 时 域 采样 点 ,而 且 , 如 
果 水 印 的 频 域 嵌入 只 影响 频 域 系 数 的 幅度 ,检测 /提取 水 印 时 可 不 要 求 水 印信 号 的 精确 
同步 。 常 用 频率 域 方法 有 DFT、DCT、 小 波 变 换 和 KLT 等 。 

基于 FFT 的 水 印加 入 技术 通过 对 原始 音频 信号 分 段 进行 快 速 傅 里 叶 变换 ,量化 幅 
度 加 入 水 印 ; 水 印 的 提取 则 通过 量化 后 的 幅度 所 属 的 区 间 来 判断 。 如 将 二 维 数 字 水 印 
( 灰 度 图 像 ) 编 码 成 一 维 二 进 制 序列 并 进行 随机 置 乱 , 再 对 数字 音频 信号 进行 分 段 处 理 并 
依据 人 类 听觉 系统 (HAS) 择 段 作 离散 余弦 变换 (DCT) ,最 后 在 DCT 域内 通过 修改 中 高 
频 DCT 系数 完成 水 印信 息 的 自 适应 嵌入 。 

对 基于 特征 点 (信号 短 时 平均 幅度 从 低 向 高 改变 程度 最 大 的 点 ) 检 测 的 水 印 算法 ， 
主要 利用 了 特征 点 的 检测 进行 水 印 垦 入 点 的 准确 定位 ,应 用 离散 余弦 变换 进行 水 印 的 
嵌入 。 

采用 基于 离散 余弦 变换 及 奇异 值 分 解 的 数字 音频 水 印 算法 时 ,首先 对 二 值 水 印 图 像 
进行 奇异 值 分 解 求 出 奇异 值 , 求 出 对 角 和 矩阵 S, 取 其 对 角 元 素 值 ,然后 对 音频 信号 进行 离 
散 余弦 变换 ,将 其 分 段 并 求 出 水 印 戏 入 点 ,再 对 S 的 对 角 元 素 进行 基于 音频 信号 频率 性 
质 的 调制 处 理 , 将 经 过 调制 的 水 印信 号 嵌入 到 音频 信号 变换 域 系数 的 幅 值 上 。 

另外 ,还 可 以 利用 离散 小 波 变换 的 多 分 辩 率 特性 ,在 小 波 变换 的 细节 部 分 搜索 局 部 
极 值 点 ,通过 修改 局 部 极 值 及 其 相 邻 点 的 幅度 值 , 实 现 水 印 的 嵌入 。 


3. 压缩 域 算法 


数字 音频 压缩 技术 的 成 熟 ,使 得 以 MP3 为 代表 的 压缩 格式 的 网 络 音乐 得 以 在 互联 
网 上 广泛 传播 。 通 常 有 三 种 方法 可 以 得 到 带 水 印 的 压缩 音频 ,如 图 8-3 所 示 。 

CD 在 非 压 缩 域 进行 , 即 先 向 非 压缩 原始 音频 中 加 入 水 印 然后 再 压缩 。 通 过 采纳 更 
为 稳健 的 同步 信号 及 其 全 新 嵌入 策略 ,提高 音频 水 印 的 抗 攻 击 能 力 ; 再 结合 听觉 扼 项 特 
性 自 适应 地 确定 量化 步 长 ,提高 数字 水 印 的 不 可 感知 性 ;特别 地 ,这 种 方法 对 于 最 为 普通 
的 MP3 压缩 攻击 具有 极 强 的 抵抗 能 力 (尤其 是 高 压缩 比 下 ) 。 
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| 水 印 
原始 音频 _| iA REGE 带 水 印 压缩 
一 | did) [ 7l 压缩 TH 
(a) 方法 1 

pem 
原始 音频 | L| 嵌入 算法 ( 非 二 带 水 印 压缩 
sessi | [3:179 重新 压缩 | 音频 C 

(b) 方法 2 


| 水 印 
原始 音频 | 向 入 算法 ( 压 | _ 带 水 印 压 
缩 域 ) 缩 音 频 


(0) 方 法 3 
图 8-3 ”压缩 域 音频 水 印 


(2) 首先 将 压缩 格式 的 音频 解压 ,然后 将 水 印 植 和 人 到 非 压缩 域 ,最 后 带 水 印 的 音 
频 内 容 再 被 重新 压缩 成 带 水 印 的 压缩 格式 音频 。 例 如 ,基于 压缩 音频 内 容 的 比特 流 
水 印 算法 ,该 算法 首先 根据 编码 算法 将 压缩 音乐 分 段 成 音 频 帧 ,并 解码 到 非 压缩 域 ， 
接着 对 每 一 帧 进行 特征 提取 和 心理 模型 计算 ,根据 提取 的 特征 和 计算 出 的 掩蔽 阔 
值 , 设 计 一 个 滤波 器 组 来 选择 适合 水 印 嵌 入 的 候选 帧 ,然后 使 用 自 适 应 多 比特 位 跳 
跃 将 水 印信 息 嵌 入 到 选 出 的 音频 帧 ,再 将 嵌入 水 印 后 的 音频 帧 重新 编码 压缩 ,最 后 
将 重 编码 后 的 音频 帧 和 没有 嵌入 水 印 的 音频 帧 重 构 生 成 带 水 印 的 压缩 音乐 。 该 方 
法 可 以 提高 水 印 的 鲁 棒 性 ,但 时 间 开 销 太 大 ,因为 压缩 过 程 要 花费 很 长 时 间 , 所 以 不 
适合 在 线 交 易 和 分 发 。 

(3) 在 压缩 域 上 进行 ,水 印 直 接 加 到 MPEG 音频 比特 流 上 ,这 使 水 印 戏 入 非常 迅速 ， 
但 鲁 棒 性 较 差 , 它 同时 又 是 真正 意义 上 的 压缩 域 水 印 方法 ,因为 前 两 种 本 质 上 还 是 在 非 
压缩 域 上 进行 水 印 嵌 入 的 。 如 可 以 选择 MPEG 音频 流 的 比例 因子 (scale factors) 和 
MPEG 编码 的 样本 数据 作为 水 印 戏 入 位 置 ,将 两 种 水 印 直 接 嵌 到 MPEG 音频 流 中 。 

此 外 还 有 基于 生理 模型 算法 、 基 于 音频 内 容 算法 、 基 于 神经 网 络 算法 以 及 基于 音频 
压缩 标准 与 音频 文件 格式 等 算法 。 


8.3.6 常见 数字 音频 水 印 算法 


1. 音频 水 印 时 域 算法 


音频 水 印 时 域 算 法 较 少 ,其 中 最 为 主要 的 是 Basia. Pitas 提出 的 LSB 方法 和 
W. Bender 提出 的 回声 隐藏 (Echo Hiding) 算 法 。 

1) LSB 算法 

LSB 算法 由 Basia,Pitas 等 于 1996 提出 。LSB 算法 是 一 种 最 简单 的 水 印 算法 ,其 主 
要 方法 是 对 音频 信号 进行 采样 ,将 采样 值 最 不 重要 的 位 (通常 为 最 低位 ) 用 代表 水 印 的 二 
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进 制 位 代替 ,以 达到 在 音频 信号 中 嵌入 水 印 数据 的 目的 。 

LSB 算法 的 主要 特点 是 嵌入 及 提取 水 印 速度 快 ,算法 简单 ,容易 实现 ,音频 信号 中 可 
编码 的 数据 量 大 ;其 缺陷 是 稳健 性 差 。 

2) 基于 回声 的 水 印 算法 

回声 (echo hiding) 算 法 是 一 种 经 典 算法 ,最 初 由 W. Bender 等 于 1996 年 提出 。 其 主 
要 方法 是 通过 引入 回声 来 将 秘密 数据 嵌入 到 载体 数据 中 ,利用 HAS 的 滞后 掩蔽 特性 , 即 
弱 信 号 在 强 信和 号 消失 之 后 变 得 无 法 听见 , 它 可 以 在 强 信号 消失 50 一 200ms 作用 而 不 被 人 
耳 觉 察 。 

在 回声 隐藏 的 算法 中 ,编码 器 将 载体 数据 延迟 一 定 的 时 间 并 释 加 到 原始 的 载体 数据 
上 以 产生 回声 。 编 码 器 可 以 用 两 个 不 同 的 延迟 时 间 来 租 和 “0” 和 “1”。 在 实际 的 操作 中 ， 
用 代表 0 或 1 的 回声 内 核 与 载体 信号 进行 卷 积 来 达到 添加 回声 的 效果 。 要 想 使 嵌入 后 
的 隐秘 数据 不 被 怀疑 ,并 且 能 使 接收 方 以 较 高 的 正确 率 提取 数据 ,关键 在 于 回声 内 核 的 
选取 。 每 个 回声 内 核 具 有 四 个 可 调整 的 参数 : 原始 幅 值 衰减 率 、1 偏 移 量 和 0 偏 移 量 。 

回声 算法 的 特点 是 透明 性 好 ,可 盲 水印 检测 ;但 提取 水 印 的 正确 率 不 能 令 人 满意 。 


2. 音频 水 印 变换 域 算法 


1) 相位 水 印 算法 

Bender W 等 于 1996 年 提出 的 音频 相位 编码 (phase coding) 充 分 利用 了 人 类 听觉 系 
统 HAS 的 特性 , 即 人 耳 对 绝对 相位 不 敏感 性 及 对 相对 相位 的 敏感 性 。 根 据 这 一 特性 ,用 
代表 秘密 数据 位 的 参考 相位 替换 原始 音频 段 的 绝对 相位 ,并 对 其 他 的 音频 段 进 行 调整 ， 
以 保持 各 段 之 间 的 相对 相位 不 变 。 

相位 水 印 算法 的 特点 是 : 当代 表 水 印 数 据 的 参考 相位 急剧 变化 时 ,会 出 现 明显 的 相 
位 离 差 ,会 影响 水 印 的 隐蔽 性 以 及 增加 水 印 解码 的 难度 。 当 音频 信号 是 较 安 静 的 环境 
时 ,嵌入 的 数据 量 较 少 。 

2) 离散 余弦 变换 (DCT) 算 法 

Wang Ye 等 于 1998 年 提出 了 一 种 基于 音频 DCT 变换 域 的 水 印 算法 ,主要 方法 是 : 
首先 根据 伪 随 机 序列 重新 排列 音频 采样 信号 ,对 序列 进行 修正 离散 余弦 变换 (Modified 
Discrete Cosine Transform. MDCT) ,通过 对 MDCT 的 系数 进行 改变 以 便 租 入 水 印 , 然 后 
进行 道 变换 得 到 嵌入 水 印 后 的 音频 序列 。 

DCT 算法 的 主要 特点 是 选择 变换 系数 (低频 .中 频 或 高 频 ) ,局 部 修改 某 些 变换 系数 ， 
以 实现 水 印 的 嵌入 。 其 透明 性 较 好 ,能 平滑 功率 谱 密 度 ,稳健 性 随 所 选 频 域 府 入 系数 而 
有 所 不 同 。 

3 离散 小 波 变换 CDWT) 算 法 

钮 心 忻 等 于 2000 年 提出 了 一 种 利用 小 波 变 换 的 音频 水 印 算法 。 该 方法 利用 
Daubechies-4 小 波 基 对 原始 语音 信号 进行 工 级 小 波 分 解 , 对 工 级 的 粗糙 分 量 不 了 予 处 理 ， 
对 世 级 的 精细 分 量 进行 处 理 , 以 嵌入 水 印 。 

陈 琦 等 于 2002 年 提出 了 利用 小 波 变换 将 一 枚 签 章 的 数字 图 像 作 为 水 印 , 骨 入 到 小 
波 变换 的 第 三 层 的 精细 分 量 中 ,并 在 信号 嵌入 时 使 用 了 检测 同步 信号 ,但 检测 时 需要 通 
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过 原始 音频 信号 进行 比较 才能 获得 水 印 。 其 主要 特点 是 有 较 好 的 透明 性 和 较 强 的 健 
壮 性 。 


3. 其 他 类 型 的 音频 水 印 算法 


1) 比特 流水 印 算法 

比特 流水 印 算法 由 Neubauer C. 等 于 2000 年 提出 。 水 印 系统 完全 工作 在 比特 流域 ， 
输入 和 输出 信号 都 是 经 过 压缩 编码 的 音频 信号 。 其 特点 是 复杂 度 较 低 、. 计 算 效 率 高 、 合 
成 声音 质量 较 好 、 稳 健 性 较 好 。 

2) 压缩 水 印 算法 

Siebenhaar 等 于 2001 年 提出 一 种 压缩 水 印 方案 ,输出 的 是 嵌入 水 印 的 音频 比特 流 。 
特点 是 压缩 和 水 印 参数 之 间 可 实现 最 佳 匹配 ,音频 压缩 和 水 印 嵌 入 可 同时 处 理 , 计 算 复 
AE BE BHR 

3) 扰动 调制 水 印 算法 

扰动 调制 水 印 算法 由 Chen 和 Wornell 于 1999 年 提出 ,并 被 应 用 于 图 像 中 。 马 田 等 
对 扰动 调制 进行 了 改进 ,将 其 应 用 于 音频 水 印 技 术 中 。 其 基本 思想 是 通过 嵌入 信息 来 调 
制 量化 器 ,对 音频 信号 加 上 随机 振动 信号 ,然后 再 进行 线性 量化 。 其 特点 是 由 于 采用 了 
频 域 嵌入 和 多 维 量化 器 ,在 不 完全 同步 的 情况 下 ,也 能 够 在 较 大 的 容 限 内 完全 正确 地 检 
测 出 水 印信 息 。 


8.3.7 数字 音频 水 印 的 评价 标准 


目前 ,对 数字 音频 水 印 的 评价 尚 无 统一 的 标准 。 学 术 界 和 工业 界 提 出 了 一 些 评估 标 
准 , 其 内 容 不 尽 相 同 。 在 研究 过 程 中 ,一 般 选 取水 印 系统 最 重要 的 三 个 指标 来 阐述 水 印 
系统 的 评估 标准 : 不 可 听 性 (感知 透明 性 ) 、 鲁 棒 性 和 水 印 容量 。 这 三 者 之 间 既 相互 依存 
又 互 为 矛盾 ,一般 来 说 ,水 印 嵌 入 强度 越 大 , 则 水 印 的 鲁 棒 性 越 好 ,但 同时 水 印 的 不 可 感 
知性 就 越 差 。 如 果 要 同时 保持 很 强 的 鲁 棒 性 和 很 好 的 不 可 感知 性 ,就 需要 牺牲 水 印 嵌 入 
量 。 因 此 ,实际 应 用 中 往往 根据 应 用 需求 在 三 者 之 间 找 到 一 个 适当 的 平衡 。 


1. IFPI 水 印 稳健 性 标准 


国际 留声机 工业 联盟 (IFPI) 在 1997 年 对 音频 水 印 技术 提出 的 稳健 性 要 求 可 以 看 作 
是 数字 音频 水 印 的 最 早 标准 。 它 要 求 水 印 标记 应 满足 以 下 要 求 : 

CD 水 印 标记 不 能 影响 唱片 的 声音 品质 。 

(2) 使 用 任何 方法 都 不 能 删除 或 改变 嵌入 的 信息 ,除非 声音 差 到 不 能 用 的 地 步 。 

(3) 水 印 经 过 以 下 变换 后 必须 能 够 恢复 : 各 种 滤波 和 信号 处 理 操作 (包括 两 个 连续 
的 D/A ffl A/D 转换 ); 稳 态 压 缩 或 10%% 的 时 间 扩 张 ;压缩 变换 (如 图 像 MPEG 的 数据 压 
缩 和 多 频带 非 线性 振幅 压缩 ); 添加 加 性 或 乘 性 噪声 ;使 用 同一 系统 加 入 另 一 个 标记 信 
号 ;使 用 低音 和 中 音频 段 产 生 群 时 延 失真 或 高 达 15dB 的 频率 响应 失真 ; 群 时 延 失真 和 陷 
波 滤波 等 。 
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2. StirMark 标准 


为 了 比较 各 种 水 印 算法 的 优 劣 ,应 该 有 一 个 统一 的 测试 标准 。 英 国 剑桥 大 学 的 
Fabien Petitcolas 等 设计 了 一 个 通用 的 水 印 基 准 测试 软件 StirMark, 从 1997 4E 11 月 开 
始 可 免费 下 载 并 且 公 开 了 源 代 码 。 

StirMark 采用 模块 化 设计 以 方便 用 户 选择 测试 项 目 ,测试 的 主要 内 容 有 感知 性 、 算 
法 容量 .稳健 性 及 速度 等 。 

为 了 评价 水 印 算法 的 健壮 性 ,StirMark 根据 攻击 模式 ,提供 了 动态 改变 滤波、 回响 、 
转换 ,有 损 压 缩 . 添 加 噪声 .调制 .时 域 拉 伸 和 基 音 改变 及 样 点 置 乱 等 攻击 方法 。 


3. 其 他 常见 的 评价 方法 


D 人 耳 的 主观 评价 测试 

向 听 音 者 提供 三 个 信号 : 第 一 个 是 作为 参照 的 原始 信号 , 听 音 者 知道 它 是 原始 信号 ， 
余下 两 个 可 能 是 原始 信号 ,也 可 能 是 受 攻击 信号 ,对 听 音 者 是 盲 的 。 听 音 者 对 余下 两 个 
信号 进行 打分 ,分 值 为 1. 0 一 5. 0, 分 别 代表 从 非常 差 到 感知 不 到 改变 的 音质 ,采用 的 评分 
标准 是 ITV-R 制定 的 5 分 衰退 等 级 。 

由 于 该 测试 受 人 的 主观 因素 影响 较 大 ,适合 于 作 定性 分 析 的 场合 。 

2) fri EE 

fri EE CSignal Noise Ration,SNR) 可 对 水 印 算法 本 身 引 起 的 信号 失真 量 进 行 定量 
评价 。 信 品 比 的 定义 如 下 : 

X AAi]? 
SNR "M SAP (8-1) 

其 中 ,A; 为 嵌入 前 的 音频 ,A;: 为 嵌入 水 印 后 的 音频 。 

此 外 ,还 有 水 印 算法 采用 峰值 信 噪 比 (Peak Signal-to-Noise Ratio, PSNR) 对 信和 号 失 
真 量 进 行 定 量 评价 。 

3) 比特 错误 率 

比特 错误 率 (Bit Error Rate,BER) 在 水 印 评价 中 也 有 应 用 ,其 定义 如 下 : 


BER = PAMER x 100% (8-2) 
4) 归 一 化 相关 系数 
音频 水 印 评价 中 ,可 以 采用 归 一 化 相关 系数 (Normalized Cross-correlation, NC) 定 
量 地 评价 正在 提取 的 水 印 与 原始 水 印 的 相似 性 , 归 一 化 相关 系数 定义 如 下 : 


ml m2 


NS Dwa jw Gj) 
NCOY .W^) gn —; (8-3) 
M XvwGgy [lw G.g* 
i=] j=1 i=] j=1 


其 中 ,W、W 分 别 为 原始 水 印 序列 、 提 取 的 水 印 序 列 。 是 否 存 在 水 印 的 判断 标准 是 : 
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NCOW WO T. rh. T. 为 一 阔 值 .其 取 值 在 0 一 1 之 间 ,.T. 的 取 值 通常 为 0.5。 

5) 水 印 容 量 

水 印 容 量 是 指 单位 长 度 的 音频 中 可 以 嵌入 的 水 印信 息 量 , 通 常用 比特 率 bps Cbits 
per second) 来 表示 。 有 的 文献 也 以 每 千 个 采样 样本 中 可 嵌入 的 比特 数 来 衡量 。 根 据 国 
际 留声机 联盟 IPPI 的 要 求 ,嵌入 的 水 印信 息 量 至 少 要 到 达 20bps 的 带宽 。 


8.3.8 数字 音频 水 印 的 发 展 趋势 
数字 音频 水 印 的 发 展 趋 势 主要 体现 在 以 下 几 方面 。 
1. 基于 内 容 的 水 印 技术 研究 


基于 内 容 的 水 印 技术 强调 将 水 印信 息肉 入 到 音频 信号 的 重要 特征 上 。 随 着 音频 压 
缩 标准 的 发 展 ,数字 音频 水 印 方案 应 将 水 印 与 音频 内 容 相 结合 ,强调 水 印 的 同步 性 。 基 
于 音频 内 容 或 基于 音频 对 象 属性 并 与 HAS 相 结合 的 水 印 方案 将 是 数字 音频 水 印 的 主要 
发 展 方向 。 


2. 结合 各 领域 的 先进 思想 进行 水 印 技术 研究 


对 现 有 数字 音频 水 印 算法 的 鲁 棒 性 、 数 据 率 、. 感 知 等 特性 进行 研究 ,结合 数字 信和 号 处 
理 技 术 ,优化 它们 之 间 的 关系 ,将 各 个 领域 的 先进 思想 ,如 神经 网 络 、 模 糊 集 . 扩 频 、 小 波 
包 和 同步 编码 理论 等 融合 进来 ,更 好 地 发 挥 现 有 技术 的 优越 性 ,创造 更 完美 的 水 印 技术 。 


3. 结合 音频 压缩 标准 与 音频 文件 格式 进行 水 印 技术 研究 


现 有 的 数字 音频 水 印 算法 ,对 算法 的 研究 很 多 , 较 少 结合 WAV, MP3, MPEG, 
AC-3 等 具体 特性 , 同 播放 器 和 具体 的 网 络 协议 相 结合 的 研究 也 较 少 。 结 合 具体 音频 压 
缩 标准 与 文件 格式 ,研究 满足 不 同 硬件 和 软件 要 求 的 水 印 算法 ,对 数字 音频 水 印 技术 的 
广泛 应 用 具有 重要 的 意义 。 


8.3.9 音频 隐 写 术 与 数字 水 印 的 区 别 


数字 音频 隐 写 术 和 数字 水 印 同 属 音频 信息 隐藏 的 范畴 ,它们 都 应 用 信号 处 理 和 编码 
等 技术 在 数字 音频 信号 中 嵌入 不 可 察觉 的 秘密 信息 ,有 许多 共性 和 密切 关系 ,但 两 者 之 
间 存 在 下 列 重要 的 差异 。 


1. 通信 内 容 

数字 水 印 的 通信 内 容 是 音频 信号 本 身 , 由 数字 水 印 提供 对 音频 内 容 的 版 权 保护 ; 隐 
写 术 的 通信 内 容 是 被 隐藏 的 秘密 信息 ,由 音频 信号 提供 对 通信 内 容 的 安全 掩护 ,音频 信 
号 的 选取 带 有 一 定 的 任意 性 ,只 要 不 易 引 起 人 们 的 特别 注意 ,并 保证 嵌入 信息 具有 感官 
隐蔽 性 和 统计 隐蔽 性 。 
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2. 稳健 性 


数字 水 印 必 须 高 度 保密 ,任何 删除 水 印 的 操作 都 会 损害 数字 音频 产品 的 质量 使 之 失 
去 使 用 价值 。 隐 写 术 则 不 一 定 要 求 这 么 强 的 稳健 性 ,甚至 很 脆弱 ,修改 或 处 理 携 密 音频 
信号 将 破坏 秘密 信息 使 之 不 能 被 提取 或 者 提取 出 错误 的 信息 ,从 而 阻止 隐蔽 通信 。 


3. 隐蔽 性 


数字 水 印 的 隐蔽 性 主要 是 指 不 影响 音频 信号 的 视听 效果 (商业 价值 ), 其 存在 性 往往 
可 以 公布 ,公布 申请 音频 产品 受到 数字 水 印 的 保护 。 而 隐 写 术 必须 毫 不 引起 局 外 人 的 注 
意 , 一 旦 秘密 信息 的 存在 性 被 察觉 ,即使 内 容 未 被 破译 , 隐 写 亦 告 失败 。 对 隐 写 术 的 分 析 
常 以 揭示 秘密 信息 的 存在 性 为 首要 目标 。 


4. RASE 


数字 水 印 通常 只 需要 携带 有 关 版 权 的 少量 信息 ,一 些 早期 技术 采用 伪 随 机 序列 作为 
水 印 , 用 相关 检测 判断 是 否 有 某 一 特定 的 水 印 标记 ,实际 上 只 有 嵌入 了 1 比特 的 信息 ,后 
来 出 现 了 大 量 多 比特 水 印 技术 ,但 其 数据 量 与 大 多 数 隐 写 应 用 相 比 仍然 相差 甚 远 。 隐 写 
术 则 不 同 , 因 为 要 实现 隐蔽 通信 ,往往 要 求 携带 足够 数量 的 秘密 数据 。 


8.4 数字 音频 隐 写 分 析 技 术 


目前 对 图 像 隐 写 分 析 的 研究 取得 了 不 少 进展 。 一 般 来 说 ,对 音频 信号 中 的 隐蔽 信息 
的 盲 分 析 难 度 比 图 像 中 的 隐 写 分 析 更 高 ,目前 在 这 方面 的 成 果 较 少 。 基 于 音频 的 隐 写 分 
析 方 法 的 基本 思想 是 , 隐 写 术 一 定 程度 上 无 可 避免 地 改变 信号 的 统计 特性 ,利用 统计 特 
性 的 差异 设计 通用 分 类 器 来 区 分 载体 信号 与 隐秘 信号 。 


8.4.1 隐 写 分 析 原 理 


隐 写 分 析 是 一 件 十 分 困难 的 工作 ,因为 隐 写 分 析 者 一 般 情 况 下 只 能 获得 隐 写 体 ,而 
对 载体 .嵌入 算法 、 嵌 入 位 置 .嵌入 密 钥 、 加 密 密 钥 等 信息 一 无 所 知 。 目 前 隐 写 分 析 的 目 
标 还 只 能 是 检测 出 媒体 中 是 否 含有 秘密 数据 ,如 果 能 够 估计 出 嵌入 秘密 数据 的 长 度 ,就 
已 经 是 比较 高 的 水 平 。 要 想 成 功 提 取出 秘密 数据 ,除了 已 经 判定 所 用 的 隐 写 工具 ,然后 
进行 暴力 破解 ,其 他 还 未 见 先例 。 数 字 隐 写 的 一 般 框架 如 图 8-4 所 示 。 


载体 

对 象 c pss 

秘密 WO. | 隐秘 | 信道 | c ,| 提取 | 提取 结果 
信息 m 算法 [age | 传输 算法 “| 秘密 信息 m 


图 8-4 ”数字 隐 写 的 一 般 框架 
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由 于 隐 写 者 必须 通过 修改 原始 数据 才能 实现 秘密 信息 的 嵌入 ,因而 载体 数据 的 统计 
特性 不 可 避免 地 会 发 生 一 些 变化 。 虽 然 分 析 者 并 不 知道 原始 数据 ,但 可 以 利用 载体 数据 
统计 特性 的 异常 来 觉察 到 秘密 信息 的 存在 。 从 而 可 以 给 出 如 下 定义 , 隐 写 分 析 是 利用 各 
种 统计 分 析 方法 ,揭示 载体 信号 中 隐蔽 信息 的 存在 性 的 技术 。 尽 管 并 未 破解 秘密 信息 的 
具体 内 容 , 信 道 监控 者 还 是 可 以 阻 断 隐蔽 通信 并 追查 秘密 信息 的 收发 双方 ,导致 隐 写 行 
为 的 失败 。 隐 写 分 析 是 隐 写 术 的 主要 威胁 ,因为 一 旦 分 析 成 功 , 隐 写 者 不 仅 无 法 传送 秘 
密 信息 ,甚至 有 暴露 身份 的 危险 。 


8.4.2 ”数字 音频 隐 写 分 析 分 类 


目前 ,数字 音频 隐 写 分 析 方 法 可 分 为 基于 感官 检测 的 分 析 法 、 基 于 统计 的 分 析 法 、 基 
于 特征 的 分 析 法 和 基于 音频 质量 的 分 析 法 等 。 


1. 感官 检测 分 析 法 


为 了 能 够 抵抗 攻击 ,一 般 在 载体 比较 敏感 的 区 域 隐藏 信息 ,但 同时 也 可 能 产生 感官 
痕迹 ,从 而 暴露 隐藏 信息 。 感 官 检测 利用 人 类 感知 和 清晰 分 辩 噪 音 的 能 力 来 对 数字 载体 
进行 分 析 检 测 。 在 数字 载体 的 失真 和 噪声 中 ,人 类 可 感知 的 失真 或 模式 最 易 被 检测 到 。 
辨别 这 种 模式 的 一 个 方法 是 比较 原始 载体 和 隐 密 载体 ,注意 可 见 的 差异 。 如 果 没 有 原始 
载体 ,这 种 噪声 就 会 作为 载体 的 一 个 有 机 部 分 而 不 被 注意 。 感 官 检测 的 思想 是 移 去 载体 
信息 部 分 ,这 时 人 的 感官 就 能 区 分 剩余 部 分 是 否 有 潜在 的 信息 或 仍然 是 载体 的 内 容 。 

当然 ,因为 人 的 感知 有 一 定 的 元 余 度 , 且 隐 写 算法 的 首要 任务 是 不 能 超出 人 类 视 / 听 
觉 宛 余 度 ,人 类 感官 系统 不 易 察觉 到 隐蔽 信息 的 存在 ,但 这 种 变形 和 降 质 确实 存在 ,可 以 
配合 对 载体 的 处 理 , 使 得 感官 检测 达到 一 定 的 功效 。 较 为 典型 的 对 图 像 载体 的 处 理 手段 
是 空间 域 图 像 位 平面 法 ,提取 并 显示 图 像 的 LSB 平面 ,使 得 感官 上 更 容易 判断 出 差异 模 
式 , 从 而 确定 隐蔽 信息 的 存在 。 感 官 检测 不 适合 计算 机 的 自动 化 分 析 检 测 ,尤其 是 分 析 
的 媒体 来 源 于 网 络 ,要 求 设计 的 分 析 算 法 必须 满足 实时 性 和 低 漏 警 率 。 


2. 统计 检测 分 析 法 


这 种 分 析 方法 是 将 原始 载体 的 理论 期 望 频率 分 布 从 可 能 是 隐 密 的 载体 中 检测 的 样 
本 分 布 进行 比较 ,从 而 找 出 差别 的 一 种 检测 方法 。 信 息 隐 藏 只 改变 载体 数据 流 的 宛 余部 
分 ,不 改变 感觉 效果 ,但 是 经 常会 改变 原始 载体 数据 的 统计 性 质 。 通 过 判定 给 定 载体 的 
统计 性 质 是 否 属于 正常 情况 ,可 以 判断 是 否 含有 隐藏 信息 。 

统计 分 析 的 关键 是 如 何 得 到 原始 载体 数据 的 期 望 频率 分 布 ,在 大 多 数 应 用 情况 下 ， 
我 们 无 法 得 到 原始 信号 的 频率 分 布 ,因为 基于 不 同 格式 载体 的 信息 隐藏 方法 多 种 多 样 ， 
所 以 对 它们 进行 统计 攻击 的 具体 方法 也 不 尽 相同 。 


3. 特征 分 析 法 


特征 分 析 是 以 信息 隐藏 操作 对 载体 造成 的 变化 作为 特征 进行 检测 。 这 种 特征 可 以 
是 感官 的 ,统计 的 或 可 以 度量 的 。 广 义 地 来 说 ,进行 分 析 所 依赖 的 就 是 特征 ,这 种 特征 必 
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须根 据 具体 的 应 用 情况 通过 分 析 发 现 ,进而 利用 这 些 特征 进行 分 析 。 感 官 上 的 、 格 式 上 
的 特征 一 般 来 说 较 明显 ,也 较 容易 分 析 , 如 基于 文件 格式 中 空余 空间 的 信息 隐藏 分 析 , 磁 
盘 上 未 使 用 区 域 的 信息 隐藏 分 析 等 。 

其 他 较 复杂 的 隐藏 特征 则 要 根据 隐藏 算法 进行 数学 推理 分 析 , 确 定 原始 载体 和 隐 密 
载体 的 度量 特征 差异 ,通过 度量 特征 的 差异 分 析 信 息 隐 藏 。 


4. 基于 音频 质量 的 分 析 方法 


当 秘密 数据 隐藏 到 音频 文件 中 后 ,必然 会 引起 音频 质量 的 下 降 。HamzaOzer 等 在 
2003 年 提出 了 一 种 基于 音频 质量 和 分 类 器 的 音频 隐 写 分 析 方 法 。 他 们 对 表 8-1 中 的 
19 种 有 关 音 频 质量 的 指标 度量 进行 了 调查 : 按照 加 性 噪声 模型 ,对 待 测 音频 进行 小 波 
去 噪 得 到 估计 的 原始 音频 ,计算 待 测 音频 与 小 波 去 噪 后 的 音频 的 各 项 指标 的 改变 量 ， 
发 现 不 含 秘密 数据 的 音频 载体 与 包含 秘密 数据 的 音频 隐 写 载体 的 各 项 指标 的 改变 是 
不 同 的 。 

表 8-1 设计 隐 写 分 析 器 时 测试 的 各 项 音频 质量 指标 


非 感知 域 指标 
感知 域 指标 


时 域 指标 频 域 指标 


Bark Spectral Distortion( BSD) 


Signal-to-noise ration(SNR) 


Log-Likelihood ration(LLR) 


Enhamed Modified Bark Spectral 


Czenakowski distance(CZD) 


Ttakura-Saito distance(ISD) 


Distortion( EMBSD) 

Perceptual Speech Quality 
Measure(PSQND COSH distance(COSH) 
Perceptual Audio Quality , 

Measure PAQM) Cepstral distance(CD) 


Measuring Normalizing 


Short Time Fourier-Radon Transform 


Block] (MNB1) distance(STFRT) 
Measuring Normalizing , F 
Block2(MNB2) Spectral Phase Distortion( SP) 
Weighted Slope Spectral u Spectral Phase-Magnitude Distortion 
distance WSS) (SPM) 
Modified Bark Spectral Segmental Signal-to noise . 

-A LAR 
Distortion( MBSD) ration SNRSog) Tor neo AOTAN) 


对 不 同 的 隐 写 算法 ,会 有 不 同 的 音频 质量 指标 来 准确 .一 致 .单调 地 反映 秘密 数据 的 


存在 与 数量 。 有 学 者 采用 方差 分 析 (analysis of variance) 和 SFS(Sequential Floating 
Search Method, 顺 序 浮 动 搜 索 算法 ) 两 种 方法 分 别 对 直接 序列 扩展 频谱 算法 、 跳 频 扩 展 
频谱 算法 、 回 声 算 法 、 基 于 人 的 听觉 系统 的 离散 余弦 算法 、 隐 写 软件 Stefanos 和 Stools 的 
鉴别 音频 质量 指标 进行 了 选择 。 然 后 又 构造 基于 多 元 回归 和 支持 向 量 机 的 两 种 分 类 器 ， 
作为 通用 的 音频 隐 写 分 析 器 。 隐 写 分 析 的 基本 流程 如 图 8-5 所 示 。 
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待 测 音频 去 除 隐藏 数据 特征 ME 分 类 和 
信号 (去 噪 ) 选择 判断 


图 8-5 隐 写 分 析 流程 图 
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8.4.3 隐 写 分 析 常 用 算法 


隐 写 分 析 的 研究 途径 主要 有 两 类 : 一 是 针对 某 种 具体 的 嵌入 算法 或 软件 进行 研究 ， 
找 出 其 固有 的 安全 缺陷 ,从 而 实现 对 其 可 靠 检测 , 称 为 专用 隐 写 分 析 技 术 , 如 接 下 来 将 要 
介绍 的 Chi-Square, RS 分 析 方 法 等 ;二 是 在 分 析 隐 写 对 载体 所 产生 影响 的 基础 上 , 找 出 
对 隐 写 敏感 的 低 阶 或 高 阶 统计 量 , 通 过 学 习 训练 模型 判断 是 否 存在 秘密 信息 ,这 种 方法 
称 为 通用 隐 写 分 析 技 术 。 专 用 隐 写 分 析 技 术 可 以 准确 检测 采用 某 种 嵌入 方法 的 隐秘 对 
象 ,准确 性 高 但 适用 性 低 : 通 用 隐 写 分 析 技术 在 整体 上 准确 性 也 许 不 如 专用 隐 写 分 析 技 
术 , 但 适用 性 高 。 


1. 专用 隐 写 分 析 技 术 


专用 隐 写 分 析 技 术 针 对 某 种 具体 的 嵌入 算法 或 软件 进行 研究 。 针 对 数字 音频 隐 写 
分 析 比 较 常 见 的 专用 隐 写 分 析 技 术 包括 Chi-Square 分 析 和 RS 分 析 。 

1) Chi-Square 分 析 

卡 方 检验 (Chi-Square test) 是 一 种 统计 攻击 的 方法 ,该 方法 主要 针对 采用 连续 嵌 和 人 
且 嵌 人 信息 服从 均匀 分 布 的 LSB 隐 写 方法 。 统 计 攻 击 的 思想 就 是 把 隐秘 对 象 的 理论 期 
望 频率 分 布 和 从 可 能 被 修改 的 载体 中 观察 到 样本 分 布 进行 比较 ,从 而 找 出 差异 ,检测 是 
和 否 有 信息 嵌入 。 因 为 进行 的 是 盲 检测 ,没有 原始 载体 作为 比较 ,因此 统计 攻击 的 关键 是 
如 何 得 到 理论 频率 分 布 。 在 隐 写 分 析 中 , 卡 方 检验 统计 测试 的 代表 是 Povs (Pairs of 
Values) 方 法 。 

设 一 段 音频 样本 值 为 j 的 出 现 频率 为 n;, 其 中 ,jE [0,255] 或 iE€[0,65535]。LSB 
算法 通常 直接 将 音频 样本 值 的 最 后 一 位 用 秘密 信息 取代 ,也 就 是 说 ,如 果 秘 密 信息 位 与 
隐藏 该 位 的 样本 值 最 后 一 位 相同 , 则 不 改变 原始 载体 ;反之 , 则 要 改变 样本 值 的 最 后 一 
位 ,即将 2i 改 为 2 十 1, 或 将 2i 十 1 改 为 2i, 而 不 会 将 2i 改 为 2i 一 1 或 将 2i 十 1 改 成 
2i 十 2。LSB 隐 写 会 改变 样本 值 直方 图 ,但 因为 样本 值 要 么 不 变 ,要 么 在 ni 与 nzi+1 之 间 互 
变 , 所 以 不 会 改变 mi 十 mei 的 值 。 秘 密 信 息 在 嵌入 之 前 往往 经 过 加 密 ,可 以 看 作 是 0、 
1 随机 分 布 的 比特 流 ,而且 值 为 0 或 1 的 可 能 性 都 是 1/2。 如 果 秘 密 信息 完全 替代 了 载体 
音频 的 最 低位 ,那么 2; 与 nz;41 的 值 会 比较 接近 ;而 如 果 载 体 音频 未 经 隐 写 ,no;、nzi41 的 值 
会 相差 较 大 。 由 上 述 可 知 ,可 以 从 随机 样本 中 取得 隐秘 对 象 的 理论 期 望 频率 分 布 。 


4 ny cie un q 18 A G Esp DG 由 作为 期 望 频率 分 布 。 如 果 某 个 


样本 值 为 2i, 它 对 参数 q 的 贡献 为 1/2; 如 果 值 为 2i 十 1, 对 参数 gq 的 贡献 为 一 1/2。 载 体 
信号 中 共有 2; 沁 个 样本 值 为 2i 或 2; 十 1, 若 所 有 样本 都 负载 了 1 比特 秘密 信息 ,那么 每 个 
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样本 值 为 2 或 2 十 1 的 概率 为 0.5。 当 2 去 较 大 时 ,根据 中 心 极 限定 理 


Nzi — nasi _ Ha — n 


Mi Men Hu "R0 N(0,1) (8-4) 
2 Sna Vni 
其 中 一 N(0,1) 表 示 服 从 标准 正 态 分 布 。 因 此 构造 出 的 统计 函数 为 : 
pope (8-5) 
=1 


Nzi 


服从 X 分 布 ,自由 度 为 一 1。 在 式 (8-5) 中 ,k 等 于 na na HRBET TIU Cn 
于 4 的 情况 不 计 在 内 ,否则 结果 偏差 会 较 大 。r 越 小 表示 载体 含有 秘密 信息 的 可 能 性 越 


大 。 结 合 X 分 布 的 密度 丙 数 计算 载体 被 隐 写 的 可 能 性 ; 
1 Dg i 
oaie e m 


如 果 p 接近 1, 则 说 明 载体 音频 中 含有 秘密 信息 ;如 果 p 近似 等 于 0, 则 认为 是 原始 载体 。 

2) Chi-Square 分 析 方 法 的 扩展 应 用 

LSB 算法 不 仅仅 能 在 最 低位 平面 嵌入 信息 ,还 可 以 通过 改变 最 低 几 个 位 平面 来 达到 
秘密 信息 隐藏 的 目的 。 典 型 的 信息 隐藏 软件 Hide4PGP 就 可 以 在 16 位 量化 的 声音 中 嵌 
入 4 比特 的 秘密 信息 。 以 最 低位 平面 嵌入 为 例 , 利 用 Chi-Square 分 析 方 法 揭示 载体 信和 号 
中 隐蔽 信息 的 存在 性 。Chi-Square 分 析 方 法 可 以 进一步 推广 到 非 最 低位 平面 的 LSB dx 
入 算法 隐 写 分 析 中 。 

首先 研究 在 最 低 工 位 平面 上 嵌入 秘密 信息 的 情况 。 即 当量 化 精度 为 N 的 音频 信号 
FEAR X GO RT DAE X GO 9 [as GO an GO t en G) emer GO TER E 3B SEM PC n G) 
来 达到 信息 隐藏 的 目的 。 其 中 ,zz 为 X GO L [ro ff 9 fan 00 29. XCG) 最 低位 平面 
的 值 。 


将 每 个 样本 值 都 除 以 2^7! ,进行 取 整 运算 , 即 XC) —1 X CO /277 L. 塘 向 下 取 整 运 


算 。 然 后 利用 1) 中 的 方法 对 六 (?) 进 行 分 析 , 可 以 达到 区 分 隐秘 载体 和 原始 载体 的 目的 。 
在 此 ,我 们 利用 连续 嵌入 算法 分 别 在 语音 中 的 第 三 位 .第 四 位 平面 上 嵌入 随机 的 秘密 
信息 。 

3) RS 分 析 

RS 分 析 方法 考虑 的 是 图 像 各 个 位 平面 之 间 具 有 一 定 的 非 线性 相关 性 ,而 当 利用 
LSB 隐藏 信息 后 ,这 种 相关 性 将 被 破坏 。 只 要 能 找 出 衡量 这 一 相关 性 的 方法 ,并 对 隐藏 
信息 前 后 的 情况 加 以 对 比 ,就 有 可 能 设计 出 隐 写 分 析 方法 。 与 图 像 类 似 ,音频 信号 同样 
具有 空间 相关 性 。 因 此 ,可 以 基于 RS 研究 音频 载体 的 隐 写 分 析 方 法 。 

首先 将 音频 分 割 为 相互 独立 的 组 ,每 个 组 G 二 (zi ,zs，…,x,) 包 含 n 个 相 邻 的 样本 。 
例如 ,当选 择 ?一 4, 把 4 个 连续 的 样本 值 作为 一 组 ,车 音频 信号 采样 位 数 为 8 位 , 则 信号 
的 样本 值 x;EP, 其 中 ,P= 二 (0,1,…,255)。 可 以 定义 一 个 分 辨 函数 ,利用 该 函数 描述 每 
一 组 数据 的 随机 程度 。 例 如 选择 


fGizi,7txX)— m | £i — £a (8-7) 
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作为 分 辨 函数 。 三 值 越 小 ,表明 音频 相 邻 值 之 间 的 起 伏 越 小 ,而 音频 块 的 空间 相关 性 
越 强 。 
定义 二 轮 置换 函数 , 即 
F'(r)—F(GG)-—z. x€P (8-8) 
下 面 定义 两 种 置换 操作 : FQi091.23.--.2549 255. HD Jg 2i 与 2i 十 1 的 相互 关 
系 : Fa:—190,192,.:.255256.)9 2i—1 5 2i 的 相互 关系 ,可 表示 为 
F4-—FjiG-D-1 (8-9) 
类 似 地 ,定义 Fo(x) 函 数 表示 不 变 关系 
Folz) =z (8-10) 
于 是 LSB 隐 写 可 表述 如 下 : 当 待 嵌入 的 秘密 比特 与 样本 值 的 LSB 相同 时 ,不 作 改 
动 , 即 应 用 Fo ;不 同时 ,应 用 FF 改变 样本 值 。 
利用 函数 f 和 置换 下 定义 R、S 和 U 三 种 类 型 的 样本 值 组 。 


常规 组 : GC€RGf((G)7f() (8-11) 
异常 组 : G€ Se f(CFGQGD) — fG) (8-12) 
不 变 组 : GEUSf(F(G))=f(G) (8-13) 

对 数据 块 的 每 个 样本 值 应 用 翻转 函数 , 记 为 
FG) = (Fumo Gr , Fu Gr) Fue) Gr) (8-14) 


其 中 ,M(1),M(2),…,M(n) 为 1,0 或 一 1。 置 换 操作 下 的 功能 是 小 范围 置换 样本 值 ,从 
而 模拟 噪声 的 加 入 。 对 于 原始 语音 ,加 入 噪声 会 引起 分 辨 函数 了 值 的 增加 ,从 而 使 常规 
组 的 总 数 大 于 异常 组 的 总 数 。 

将 待 检 信 号 分 为 很 多 大 小 相等 的 小 块 ,对 每 个 小 块 应 用 非 负 翻转 , 即 MO), 
M(2),…,M(n) 为 1 或 0, 和 常规 组 的 个 数 记 为 Ri ,异常 组 的 个 数 记 为 5S1, 同 理 ,对 于 非 正 
翻转 , 即 M(1),M(2),…,M(N) 为 一 1 或 0, 分 别 记 为 R, 和 S: 。 

如 果 待 检 信 号 未 经 过 LSB 隐 写 处 理 , 那 么 无 论 应 用 非 负 翻转 还 是 非 正 翻转 ,从 统计 
上 来 说 ,会 同等 程度 地 增加 音频 块 的 混乱 度 , 也 就 是 说 ， 

R: SR: 
” x~ S: 


(8-15) 


但 是 嵌入 信息 后 ,上 式 就 不 再 成 立 。 

定义 隐 写 嵌 人 率 为 平均 每 个 样本 中 含有 秘密 信息 的 比特 数 。 比 如 ,对 于 最 大 容量 嵌 
入 的 最 低位 LSB 算法 来 说 ,其 隐 写 嵌入 率 为 1。 随 着 嵌入 率 的 增加 , 隐 写 行为 使 所 有 
LSB 逐渐 随机 化 了 ,在 此 基础 上 再 进行 非 负 翻 转 并 不 能 增加 音频 的 空间 相关 性 , 即 Rs 
Si 的 差距 会 随 着 嵌入 率 的 上 升 而 下 降 . 而 对 含 密 音 频 进 行 非 正 翻转 ,会 有 一 些 样本 值 经 
历 两 次 翻转 ,但 部 分 经 历 的 是 一 次 F. 翻转 和 一 次 F 翻转 ,与 原始 值 之 间 就 会 偏离 得 很 
远 。 也 就 是 说 ,两 次 翻转 并 不 会 互相 抵消 ,所 以 R,、S; 之 间 的 距离 不 会 随 着 嵌入 率 的 上 
升 而 下 降 。 


2. 通用 盲 隐 写 检测 技术 
通用 检测 算法 主要 是 找 出 音频 中 对 隐 写 敏感 的 低 阶 或 高 阶 统计 量 ,通过 学 习 训 练 模型 
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判断 是 否 存在 秘密 信息 ,由 于 通用 检测 方法 较为 复杂 ,下 面 简单 介绍 两 种 通用 检测 算法 。 

1) 基于 短 时 傅 里 叶 变换 和 神经 网 络 的 隐 写 分 析 方 案 

在 语音 信号 中 , 短 时 傅 里 叶 变换 (CSTFT) 是 目前 最 常用 和 最 有 效 的 时 频 信号 分 析 处 
理 法 。 可 以 利用 STFT 建立 用 于 区 分 正常 载体 和 隐秘 载体 的 高 阶 统计 特征 模型 。 有 学 
者 提出 了 利用 STET 和 PCA 提取 音频 信号 的 高 阶 统计 特性 和 非 支持 向 量 机 进行 分 类 判 
决 的 方案 ,并 给 出 了 对 LSB 算法 及 Hide4PGP 的 隐 写 分 析 结 果 , 如 需 了 解 具 体 算法 可 参 
考 文献 [55]。 

2) 高 阶 离散 小 波 系数 的 隐 写 分 析 方 法 

利用 基于 高 阶 小 波 分 解 的 统计 建 模 可 以 检测 到 隐蔽 信息 的 存在 性 。 这 个 统计 模型 
既 包 含 基本 的 变换 系数 ,又 包含 最 优 线性 预测 分 析 求 出 的 变换 系数 的 偏差 统计 。 高 阶 统 
计 反 映 出 自然 音频 的 某 些 内 在 特性 。 更 重要 的 是 ,这 些 统计 特性 在 信息 嵌入 后 会 发 生 显 
著 的 改变 。 该 方法 能 进一步 测试 音乐 信号 中 隐蔽 信息 的 存在 性 。 


8.4.4. 隐 写 分 析 方 法 评价 


对 数字 音频 隐 写 分 析 方 法 的 评价 ,可 以 采用 如 下 4 个 指标 : 准确 性 、 适 用 性 、 实 用 性 

准确 性 指 检测 的 准确 程度 ,是 评价 被 动 隐 写 分 析 方 法 最 重要 的 指标 ,可 采用 虚 警 率 、 
漏 报 率 和 全 局 检测 率 表示 。 虚 警 率 是 把 原始 载体 误 判 为 隐 写 载体 的 概率 ; 漏 报 率 是 把 隐 
写 载体 误 判 为 原始 载体 的 概率 。 全 局 检测 率 是 全 面 衡 量 准确 性 的 指标 。 

适用 性 指 检测 算法 对 不 同 嵌 和 算法 的 有 效 性 ,可 由 检测 算法 能 够 有 效 检测 多 少 种、 
多 少 类 隐 写 术 或 嵌入 算法 来 衡量 。 

实用 性 指 检测 算法 可 实际 应 用 的 程度 ,可 由 现实 条 件 允许 与 否 \ 检 测 结果 稳定 与 否 、 
自动 化 程度 和 实时 性 等 来 衡量 。 

复杂 性 是 针对 检测 算法 本 身 而 言 的 ,可 由 检测 算法 实现 所 需要 的 资源 开销 、 软 硬件 
条 件 等 来 衡量 。 到 目前 为 止 ,还 没有 人 给 出 适用 性 、 实 用 性 和 复杂 性 的 定量 度量 ,只 能 通 
过 比较 不 同 检测 算法 之 间 的 实现 情况 和 检测 效果 得 出 一 个 相对 的 结论 。 

通用 性 强 的 隐 写 分 析 算 法 准确 率 不 高 ,准确 率 高 的 隐 写 分 析 算法 针对 性 太 强 。 因 此 
所 有 的 隐 写 分 析 算 法 往往 都 有 各 自 的 优点 、 局 限 性 和 适用 范围 。 要 提高 隐 写 分 析 算 法 的 
准确 率 ,同时 又 具有 和 较 宽 的 适用 范围 是 当今 隐 写 分 析 的 研究 方向 。 一 种 思路 是 对 待 测 音 
频 应 用 各 种 音频 隐 写 分 析 方 法 ,融合 各 种 检测 的 结果 ,应 用 人 工 智 能 判断 秘密 数据 的 存 
在 与 否 ; 还 有 一 种 思路 是 建立 一 个 分 析 系 统 ,在 系统 中 调度 不 同 的 算法 检测 不 同 统计 特 
性 的 音频 ,达到 算法 与 音频 的 最 佳 匹配 适用 性 ,从 而 提高 系统 的 检测 准确 性 。 


8.5 数字 音频 取证 技术 


近 几 年 来 , 随 着 数字 录音 设备 的 普及 ,数字 录音 大 有 取代 以 前 模拟 录音 的 趋势 。 各 
音频 处 理 算法 和 软件 的 广泛 应 用 ,使 得 一 般 的 用 户 能 轻易 地 对 数字 录音 进行 自 改 而 不 
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留 下 痕迹 ,因此 从 录音 中 听 到 的 未 必 就 是 真实 的 。 一 段 录音 中 可 能 有 一 些 重要 的 字 词 被 

删除 或 者 来 源 于 其 他 录音 的 内 容 。 如 果 虚 假 的 录音 被 滥用 , 必 将 引起 一 系列 的 问题 ,如 

涉及 到 法 律 真 实 性 .数字 作品 的 版 权 . 个 人 隐私 的 保护 等 。 因 为 检测 音频 真实 性 和 完整 

性 有 着 十 分 重要 的 意义 ,针对 音频 自 改 的 取证 技术 也 应 运 而 生 , 并 迅速 成 为 信息 安全 的 

重要 研究 内 容 。 本 节 通 过 数字 音频 取证 步 又、 数字 音频 取证 技术 分 类 以 及 一 些 常 见 的 数 
音频 取证 算法 等 来 介绍 音频 数字 取证 技术 。 


8.5.1 数字 音频 取证 技术 步骤 


音频 取证 是 一 门 复杂 的 取证 科学 ,需要 对 给 定 的 录音 进行 反复 的 听力 测试 和 使 用 仪 
器 检验 。 进 行 音频 取证 需要 确定 该 录音 是 不 是 原始 的 ,并 且 解 释 其 中 出 现 异常 的 地 方 ， 
例如 录音 信号 出 现 不 连续 等 。 音 频 取 证 的 最 终 目标 就 是 尽 可 能 地 估计 录音 是 否 为 在 某 
一 特定 时 间 和 地 点 所 发 生 事件 的 真实 记录 。 

最 早 开始 正式 接受 录音 作为 证 据 的 案件 是 1958 年 出 现在 美国 的 McKeever 案件 。 
当时 美国 法 院 同 时 提出 了 录音 能 够 作为 证 据 的 七 个 条 件 , 而 这 七 个 条 件 一 直 沿用 至 今 : 

(1) 录音 设备 必须 能 够 录制 对 话 并 提供 证 据 。 

(2) 操作 人 员 必 须 能 够 熟练 操作 设备 。 

(3) 录音 必须 可 靠 和 正确 。 

(4) 录音 不 能 修改 .增添 和 裁剪 。 

(5) 录音 必须 进行 保护 直到 法 庭 呈现 。 

(6) 必须 识别 出 录音 中 的 说 话 人 。 

CD 对 话 必须 是 在 自愿 和 诚信 的 情况 下 录制 ,说 话 人 没有 被 诱导 或 强迫 。 

然而 ,使 得 音频 取证 真正 引起 公众 和 取证 界 关 注 的 事件 是 发 生 在 1974 年 美国 历史 
上 著名 的 “水 门 事 件 ”。 由 六 个 顶尖 科学 家 组 成 的 调查 组 通过 分 析 信 号 幅度 、 磁 带 回放 的 
电 声 信号 等 特性 ,发现 长 达 18. 5min 录音 内 容 被 人 为 抹 除 。“ 水 门 事 件 ” 对 模拟 音频 取证 
影响 深远 ,目前 很 多 对 模拟 录音 取证 分 析 , 都 还 是 基于 当年 调查 “水 门 事件 ”使 用 的 技术 。 
直到 后 来 还 出 现 了 文献 报道 ,提供 了 如 何 利 用 编辑 技术 令 录 音 证 据 失效 的 详细 过 程 。 

另外 ,音频 界 的 权威 组 织 音频 工程 协会 (Audio Engineering Society, AES) 对 “真实 性 
的 录音 ”也 在 AES27-1996 标准 中 作 了 严格 定义 :“ 录 音 必 须 是 所 宣称 的 声音 事件 的 同步 
记录 ,并 且 与 录制 宣称 的 录音 方式 完全 一 致 ;录音 不 能 包含 任何 无 法 解释 的 人 工 痕迹 、 改 
变 、 增 添 .裁剪 或 者 编辑 。 

对 于 “录音 的 真实 性 认证 ”过 程 ,音频 工程 协会 在 AES43-2000 标准 中 也 给 出 了 严格 
要 求 :“ 取 证 分 析 人 员 必 须 检查 给 定 的 原始 录音 是 否 与 给 定 的 原始 录音 设备 匹配 。 取 证 
分 析 人 员 呈 现 的 调查 结果 必须 科学 地 表明 给 定 的 原始 录音 设备 的 确 录 制 了 给 定 的 原始 

音 , 并 且 在 录制 的 内 容 中 没有 发 现存 在 自 改 .擅自 编 辑 .故意 删除 内 容 或 材料 的 痕迹 。” 

有 关 录 音 取证 的 问题 可 以 分 为 两 部 分 : 

第 一 部 分 是 评估 所 记录 的 声音 事件 与 已 知事 件 或 证 词 声明 是 否 一 致 ,具体 包括 以 下 
三 方面 : 

CD 评估 录音 中 说 话 人 与 被 指控 人 是 否 一 致 。 
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(2) 评估 录音 的 日 期 和 时 间 与 证 词 声明 是 否 一 致 

(3) 评估 录音 地 点 与 证 词 声明 是 否 一 致 。 

第 二 部 分 是 评估 录音 是 否 具有 原始 性 , 即 排除 录音 曾 受 到 任何 形式 算 改 的 可 能 性 。 
关于 这 方面 的 取证 主要 集中 在 以 下 四 个 方面 : 

(1) 该 录音 是 原始 版 本 还 是 拷贝 ? 

(2) 从 录音 生成 起 ,该 录音 是 否 曾 被 编辑 或 修改 ? 

(3) 该 录音 是 否 从 宣称 的 录音 设备 获得 ? 

(4) 录音 的 内 容 是 否 与 证 词 声明 符合 ? 

除了 国际 标准 ,我 国 在 法 律 法 规 上 对 录音 证 据 也 有 明确 的 规定 。《 民 事 诉讼 法 ) 第 六 
十 九条 规定 ,人 民法 院 对 视听 资料 ,应 当 辨 别 真 伪 , 并 结合 本 案 的 其 他 证 据 , 审 查 确定 能 
否 作为 认定 事实 的 证 据 。 从 2002 年 4 月 1 日 施行 的 我 国 (最 高 人 民法 院 关 于 民事 诉讼 证 
据 的 若干 规定 ) 对 视听 资料 作为 证 据 作 了 明确 规定 。 具 有 证 据 效 力 的 视听 资料 ,必须 同 
时 符合 以 下 三 个 条 件 : 

CO 具备 合法 性 。 这 要 求 音频 证 据 的 获得 必须 是 通过 合法 手段 ,不 能 违反 法 律 的 禁 
止 性 规定 。 

(2) 视听 资料 必须 无 疑点 , 即 具 备 真实 性 。 想 把 视听 证 据 作 为 判 案 依据 时 ,还 要 对 视 
听证 据 是 否 有 疑点 进行 审查 。 视 听 资 料 无 疑点 即 具备 真实 性 ,就 是 当事人 出 示 的 视听 证 
据 未 被 裁 接 .前 辑 或 者 伪造 ,前 后 连接 紧密 ,内 容 未 被 筑 改 ,具有 客观 真实 性 和 连贯 性 。 

(3) 有 其 他 证 据 佐证 。 在 同时 符合 以 上 两 个 条 件 , 且 对 方 未 提出 反驳 或 反驳 理由 不 
成 立时 ,法 院 应 当 确认 视听 证 据 的 证 明 力 。 


8.5.2 数字 音频 取证 的 分 类 
音频 取证 技术 主要 分 为 三 方面 内 容 : 说 话 人 识别 .语音 增强 和 真实 性 认证 。 
1. 说 话 人 识别 


说 话 人 识别 或 者 嗓音 比较 从 20 世纪 60 年 代 开始 应 用 ,主要 是 为 了 解决 司法 系统 上 
要 求 识别 录音 里 面 的 说 话 人 的 问题 。 说 话 识别 的 过 程 分 为 两 大 步骤 : 提取 表征 说 话 人 的 
特性 参数 与 模型 匹配 。 

提取 说 话 人 特征 参数 方面 , 常 有 的 特征 参数 有 短 时 传 里 叶 谱 、 基 音频 率 、 共 振 峰 频 
率 、 线 性 预测 系数 对 数 域 比例 等 。 随 着 使 用 单一 特征 参数 在 识别 上 准确 率 遇 到 的 瓶颈 ， 
相关 的 研究 方向 开始 转向 使 用 混合 特征 参数 。 

在 模型 匹配 方面 ,主要 的 方法 有 模板 匹配 、 矢 量 量化 、 多 层 感知 器 、 时 延 神经 网 络 、 混 
合 高 斯 模型 .最 近 相 邻 聚 类 和 隐 马 尔 科 夫 模型 。 


2. 语音 增强 


语 
语音 增强 的 任务 是 强化 录音 媒介 上 的 衰弱 信号 ,提高 语音 信号 的 清晰 度 。 造 成 这 种 
衰弱 或 者 低音 质 的 原因 有 很 多 ,包括 环境 引起 的 卷 积 性 衰弱 、 其 他 声音 的 掩 项、 电子 噪 
声 、 低 质量 的 录音 系统 等 。 常 用 的 消除 噪声 技术 分 为 时 域 处 理 方法 和 频 域 处 理 方法 。 时 
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域 的 经 典 算法 是 使 用 电 平 检测 器 ,而 频 域 最 常用 的 技术 就 是 频 减 技术 。 针 对 噪声 的 类 型 
不 同 ,研究 人 员 分 别提 出 了 各 种 针对 型 的 降 品 方法 。 对 于 宽带 噪声 ,最 常用 的 方法 是 通 
过 频 减 技术 削弱 ;对 于 窄带 噪声 ,可 以 利用 自 适应 滤波 器 进行 消减 ;脉冲 噪声 通常 使 用 中 
值 滤波 的 方法 消除 ; 卷 积 性 噪声 则 利用 倒 谱 均 减 技术 削弱 。 


3. 真实 性 认证 


从 20 世纪 70 年 代 至 今 , 取 证 所 用 的 语音 信号 通常 来 自 于 模拟 磁带 。 对 模拟 磁带 录 
音 的 认证 包括 以 下 几 方 面 的 工作 : 

CD 物理 检查 : 检查 模拟 磁带 的 长 度 .卷轴 和 外 壳 的 状态 ,寻找 外 壳 曾 被 打开 或 者 磁 
带 被 拼接 的 痕迹 。 

(2) 监听 蜡 常 : 取证 人 员 小 心 监听 全 部 录音 内 容 , 标 注 所 有 明显 的 修改 和 异常 处 。 
记录 下 任何 听 得 到 的 编辑 和 拼接 痕迹 、 背 景 噪声 或 者 磁带 的 不 一 致 。 

(3) 磁带 特性 : 采用 磁性 处 理 技术 ,将 该 磁带 和 来 自 相 同 录音 设备 的 参考 信号 进行 
比较 ,检验 该 磁带 特性 。 

(4) 时 域 分 析 : 观察 录音 信号 的 波形 ,其 中 录音 起 始 和 终止 的 过 渡 波形 可 以 反映 录 
音 机 的 型 号 。 

(5) 语 谱 图 分 析 : 利用 语 谱 图 分 析 器 或 者 软件 包 检查 语音 信号 不 连续 的 痕迹 , 若 该 
不 连续 是 由 非 设备 因素 引起 的 , 则 判定 该 录音 曾 被 修改 。 


8.5.3 数字 音频 取证 常用 算法 


1. 基于 电网 频率 的 分 析 的 算法 


通常 在 录音 时 录音 设备 不 仅 捕获 了 语音 信号 ,也 记录 了 当时 的 电网 频率 (50 或 
60Hz)。 通 过 提取 出 的 录音 里 面 的 电网 频率 ,就 能 检测 录音 内 容 的 完整 性 和 认证 录音 的 
时 间 。 


2. 基于 检测 录音 设备 环境 的 算法 


早 在 2005 年 就 有 学 者 提出 了 一 种 利用 音频 分 类 和 分 析 来 确定 说 话 环境 真实 性 的 算 
法 框架 ,此 方法 可 用 于 分 类 的 四 层次 的 音频 特征 (包括 显著 的 句法 特征 .语义 特征 等 ) 。 
2007 年 有 学 者 利用 已 知 的 音频 隐 写 分 析 特 征 , 提 出 一 种 机 器 学 习 的 方法 对 录音 地 点 和 麦 
克 风 进行 分 类 ,实现 根据 录音 判定 录音 的 地 点 和 麦克 风 。 之 后 有 学 者 利用 录音 设备 的 本 
地 噪声 鉴定 音频 文件 真实 性 的 方法 。 录 音 设备 的 本 地 噪声 通过 对 由 该 设备 产生 的 录音 
进行 小 波 去 噪 提 取 。 将 待 检测 音频 的 本 地 噪声 与 录音 设备 的 本 地 噪声 比较 ,从 而 判断 该 
音频 文件 是 否 包含 由 其 他 录音 设备 录制 的 视频 。 


3. 基于 算 改 痕迹 的 分 析 算 法 


由 于 自然 语音 信号 在 频 域 的 高 阶 统计 量具 有 弱 相 关 性 ,而 算 改 的 语音 会 大 大 增强 这 
一 相关 性 ,有 学 者 提出 一 种 利用 双边 谱 (bispectral) 分 析 的 方法 检测 语音 的 自 改 。 若 自 改 
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后 语音 不 作 后 期 处 理 ( 如 边界 样本 调整 .压缩 等 ) ,这 种 方法 能 准确 地 定位 发 生 在 WAV 
格式 的 语音 信号 的 自 改 。 

之 后 有 学 者 指出 重 采样 的 音频 信号 会 引入 周期 性 信息 ,并 采用 期 望 最 大 化 对 周期 信 
息 进行 估计 ,实现 检测 音频 是 否 重 采样 。 

通过 对 插值 音频 信号 频谱 特性 的 分 析 , 有 学 者 发 现 插值 后 音频 信号 的 各 子 带 频谱 的 
波动 程度 比 正常 音频 的 小 。 在 此 基础 上 ,利用 子 带 谱 平滑 度 衡量 音频 信号 在 各 子 带 频谱 
的 波动 程度 ,并 借助 子 带 谱 平 滑 度 检测 音频 信号 的 自 改 。 该 方法 可 以 检测 出 音频 信号 是 

否 经 过 插值 和 拼接 处 理 , 同 时 还 能 估算 出 信号 插值 前 的 原始 采样 率 。 

实验 证 明 ,一 段 录 音 在 生产 过 程 中 会 产生 失真 和 衰落 。 如 房间 的 不 同 表面 的 多 次 反 
射 , 使 得 记录 的 声音 在 时 域 和 频 域 都 有 拖 尾 效 应 。 这 些 失真 可 以 归结 为 音频 回响 时 间 。 
据 此 ,有 学 者 提出 了 一 种 对 回响 量 进行 建 模 和 估计 的 方法 ,利用 该 回响 量 对 录音 进行 取 
证 。 由 于 该 研究 还 处 在 尝试 阶段 ,实验 结果 估计 的 回响 量 与 真实 回响 量 还 是 有 一 定 差 
异 , 但 是 足以 检测 出 算 改 的 录音 里 面包 含 不 同 的 回响 量 。 

之 后 有 学 者 提出 了 一 种 基于 音频 信号 背景 噪声 的 音频 取证 方法 。 在 保证 语音 残余 
信号 最 小 的 情况 下 ,提出 了 一 种 估计 背景 噪声 的 方法 。 在 此 基础 上 ,利用 基于 相关 度 衡 
量 检 测 语音 信号 的 完整 性 。 通 过 利用 不 同 的 语音 信号 在 不 同 环境 下 进行 录音 实验 ,结果 
表明 该 方法 比 已 知 的 语音 算法 具有 更 好 的 性 能 ,同时 获得 更 高 的 信 品 比 。 


8.5.4 数字 音频 取证 发 展 趋势 


数字 音频 取证 虽然 取得 了 一 些 研究 成 果 , 但 还 是 存在 很 多 不 足 之 处 ,尤其 是 以 下 几 
方面 。 


1. 篡改 定位 


目前 音频 取证 需要 专家 反复 辨 听 音 频 , 确 定 可 疑 区 域 后 再 借助 音频 分 析 的 方法 定位 
算 改 。 当 录音 长 度 很 长 时 ,使 用 人 工 反复 辨 听 是 一 项 耗 时 耗 力 的 工作 ,自动 定位 自 改 可 
以 大 大 加 快 取证 进度 。 另 外 ,定位 算 改 能 够 增强 音频 取证 结果 的 说 服 力 。 


2. 针对 压缩 格式 音频 的 分 析 


由 于 目前 很 多 数字 录音 设备 的 录音 文件 格式 均 为 MP3、WMA 等 压缩 格式 ,而 针对 压 
缩 格式 音频 的 取证 方法 尚 无 报道 。 压 缩 格式 音频 的 广泛 性 ,使 得 对 其 算 改 编辑 也 变 得 非常 
普遍 。 针 对 音频 压缩 过 程 中 的 痕迹 ,进行 音频 取证 将 发 掘 更 多 鉴别 音频 真实 性 的 技术 。 


3. 鲁 棒 性 


由 于 音频 取证 技术 目前 还 处 在 研究 阶段 .有些 算法 还 不 能 与 实际 的 自 改 检测 情况 相 
符 。 如 在 音频 拼接 检测 中 ,目前 的 算法 不 允许 拼接 后 进行 处 理 操作 。 随 着 取证 技术 的 发 
展 , 反 取证 技术 也 在 不 断 进 步 ,各 种 自 改 后 的 后 期 处 理 技术 不 断 地 向 现 有 的 取证 技术 发 
出 挑战 。 因 此 ,研究 数字 音频 取证 技术 的 时 候 , 必 须 将 其 对 抗 常 有 的 后 期 处 理 技术 的 鲁 
棒 性 考虑 在 内 。 
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尽管 数字 音频 取证 技术 还 处 在 起 步 阶段 ,但 数字 图 像 取证 已 经 产生 了 一 系列 数字 图 
像 取 证 的 方法 ,例如 复制 粘贴 检测 JPEG 重 压 缩 检测 、 重 采样 检测 ,模式 噪声 检测 .CFA 
插值 检测 、 自 然 图 像 模型 等 。 虽然 音频 和 图 像 两 种 截然 不 同 的 媒介 ,导致 很 多 合适 图 像 
取证 的 方法 无 法 直接 应 用 在 音频 上 ,但 是 图 像 取 证 的 很 多 指导 思想 是 值得 音频 取证 借鉴 
的 。 例 如 利用 压缩 遗留 的 痕迹 、 检 测 背景 噪声 的 一 致 性 等 。 

MP3 是 当前 最 常见 ,使 用 最 广泛 的 数字 音频 格式 ,无 论 网 上 的 音乐 格式 还 是 数字 录音 
笔 保存 文件 的 格式 大 多 都 为 MP3 格式 ,但 针对 这 一 格式 的 音频 取证 技术 的 报道 还 很 少 , 因 
此 很 有 必要 开发 与 MP3 相关 的 取证 技术 ,包括 鉴别 假 音质 的 音乐 ,鉴别 音频 的 原始 性 ,定位 
音频 的 算 改 、 录 音 与 录音 笔 的 匹配 等 。 这 些 将 可 能 成 为 数字 音频 取证 的 重要 内 容 。 
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8.1 简 述 音频 文件 的 常见 存储 格式 及 其 各 自 特点 。 
8.2 常见 的 音频 素材 获取 途径 有 哪 几 种 ? 
8.3 ”动手 制作 一 个 数字 音频 作品 ,要 求 : 
题材 : 翻唱 歌曲 , 诗 配乐 ,朗读 ,演讲 ,彩铃 …… 
格式 : MP3, 位 速 320kbps 
8.4 什么 是 采样 ? 什么 是 量化 ? 什么 是 编码 ? 
8.5 论述 回声 的 相关 原理 。 
8.6 ”假设 目前 正在 使 用 麦克 风 进 行 录音 ,采样 频率 设 为 22kHz, 量 化 选 为 16 位 ,在 不 采 
用 压缩 技术 的 情况 下 ,计算 录制 57 秒 的 立体 声 文件 大 约 需 要 多 少 空 间 ? 
7 简 述 数字 音频 信号 的 一 般 处 理 过 程 。 
8 分 析 数 字音 频 完全 加 密 和 选择 性 加 密 的 优 缺 点 。 
9 列举 数字 音频 水 印 技 术 的 用 途 (至 少 5 例 )。 
10 数字 音频 水 印 与 一 般 图 像 水 印 有 何 异 同 ? 
数字 音频 的 频 域 水 印 算法 有 什么 优点 ? 
12 举例 说 明 常 见 数字 音频 水 印 算法 并 分 析 其 各 自 特 点 。 
13 列 出 常见 隐 写 方法 并 分 析 其 特点 。 
14 查找 一 个 数字 音频 隐 写 工具 ,做 简单 的 隐 写 分 析 实 验 。 
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第 9 音 OO 
数字 视频 内 容 安全 


本 章 学 习 目标 

随 着 数字 视频 产品 的 日 益 增多 ,数字 视频 的 安全 保护 开始 引起 了 人 们 的 关注 。 本 章 
将 对 数字 视频 内 容 安 全 的 有 关 概 念 和 方法 进行 介绍 ,主要 包括 数字 视频 内 容 加 密 、 数 字 
视频 隐 写 与 水 印 、 数 字 视频 隐 写 分 析 技术 与 数字 视频 取证 等 方面 的 知识 。 

通过 本 章 的 学 习 , 应 掌握 以 下 内 容 : 

CD. 数字 视频 压缩 编码 技术 。 

(2) 数字 视频 内 容 加 密 : 完全 加 密 、 选 择 加 密 、 混 沌 加 密 。 

(3) 数字 视频 隐 写 与 水 印 技术 。 

(4) 数字 视频 隐 写 分 析 技 术 。 

(5) 数字 视频 取证 技术 。 


9.1 数字 视频 内 容 安全 基本 概念 


随 着 大 量 消费 类 数字 视频 产品 在 市 场 上 的 推出 ,如 VCD、DVD, 以 及 网 络 视频 分 享 
网 站 的 火爆 ,如 Youtube, Youku 等 ,使 得 视频 作品 能 够 很 容易 获得 ,制作 其 完美 拷贝 也 
变 得 非常 容易 。 这 给 人 们 的 工作 、 学 习 和 生活 带 来 了 极 大 的 便利 ,但 同时 也 可 能 会 导致 
大 规模 的 非 授权 拷贝 .秘密 信息 的 泄露 等 一 系列 的 安全 问题 ,为 了 解决 这 些 问题 ,本 章 将 
针对 数字 视频 内 容 安全 技术 进行 介绍 。 


9.1.1 数字 视频 概述 


l. 数字 视频 的 特点 


数字 视频 就 是 以 数字 形式 记录 的 视频 ,和 模拟 视频 是 相对 的 。 数 字 视 频 就 是 通过 数 
字 摄 像 机 等 视频 捕捉 设备 ,将 外 界 影像 的 亮度 和 颜色 等 信息 转化 为 数字 视频 信号 ,然后 
存储 在 存储 介质 上 (如 光盘 、 磁 盘 等 ) ,得 到 不 同 格式 的 数字 视频 。 播 放 时 ,视频 信号 通过 
视频 播放 器 被 转变 为 帧 信息 ,并 以 每 秒 约 30 帧 的 速度 投影 到 显示 器 上 ,让 人 的 眼睛 感觉 
它 是 连续 不 间断 地 运动 着 的 。 

和 模拟 视频 信号 相 比 ,数字 视频 具有 许多 突出 优点 。 
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D 失真 小 .噪声 低 、 视 频 质量 高 

模拟 电视 信号 在 放大 、 处 理 、 传 输 、 存 储 过程 中 ,难免 会 引入 失真 和 噪声 ,多 种 噪声 与 
AK EUSEB fi E ,不 易 去 除 ,而且 会 随 着 处 理 次 数 和 传输 距离 的 增加 而 累积 ,导致 图 
像 质 量 及 信 噪 比 下 降 。 相 反 ,数字 视频 设 有 上 述 的 噪声 累积 效应 ,只 要 噪声 电 平 不 超过 
信号 脉冲 幅度 一 半 ,就 可 对 其 整 型 ,并 恢复 成 0 和 1 两 种 电 平 ,不 会 引入 噪声 。 

2) 易 处 理 、 易 校正 

数字 视频 信号 利用 VLSI 芯片 进行 压缩 编码 处 理 、 彩 色 校 正 等 处 理 相 对 来 说 容易 得 
多 。 随 着 专用 芯片 和 通用 DSP 的 发 展 ,视频 数字 压缩 编码 取得 更 大 发 展 。 

3) REK, HAL 

同样 带宽 容纳 的 数字 电视 节目 比 模拟 的 多 得 多 。 例 如, CATYV 频道 中 , 550 一 
750MHz 的 200M Hz 带宽 中 ,如 果 传 送 模拟 电视 ,每 个 节目 需 8MHz 带宽 ,最 多 传送 
25 套 节目 。 如 果 换 成 数字 节目 ,采用 64QAM 调制 ,频谱 利用 率 为 5. 3, 如 果 每 路 节目 用 
MPEG-2 压缩 为 2Mb/s, 实 际 只 需 4/5. 3220. 75(MHz) 带 宽 , 于 是 在 同样 的 200MHz 带 
宽 中 可 传送 200/0. 7522260 套 节 目 , 约 为 模拟 电视 的 11 倍 。 


2. 采样 与 量化 


为 了 存储 数字 视频 信号 ,模拟 视频 信号 必须 通过 模拟 /数字 (A/D) 转 换 器 来 转变 为 
数字 的 0 或 1。 这 个 转变 过 程 就 是 视频 捕 提 ( 或 采集 过 程 )。 如 果 要 在 电视 机 上 观看 数字 
视频 , 则 需要 一 个 从 数字 到 模拟 的 转换 器 将 二 进 制 信息 解码 成 模拟 信号 ,才能 进行 播放 。 

电视 信号 有 两 种 采样 : 时 间 取 样 和 空间 采样 。 

1) 时 间 取 样 

运动 图 像 可 由 每 秒 若干 帧 的 静止 图 像 构成 ,我 国 采用 PAL 制 规定 彩色 电视 25 帧 /s， 
美国 .日 本 等 采用 NTSC 制 规定 30 帧 /s。 

2) 空间 取样 

在 同一 电视 信号 帧 中 ,同一 行 由 若干 取样 点 构成 , 即 像素 ,这 种 取样 点 就 属于 空间 取 
样 。 例 如 ,国际 上 标准 电视 格式 为 720X576 像素 , 即 每 帧 576 行 ,每 行 720 个 像素 。 

不 同 的 国家 采用 不 同 制 式 ,为 实现 国际 不 同 彩色 电视 制式 国家 间 通 信 , 通 常 采用 一 
种 公共 格式 (CIF) ,如 表 9-1 所 示 。 


表 9-1 视频 帧 格式 
格 式 亮度 清晰 度 格 式 亮度 清晰 度 
亚 QCIF 96X128 CIF 288X352 
QCIF 144X176 4CIF 576X720 


3. 彩色 空间 

黑白 图 像 的 每 个 像素 中 只 需 一 个 幅 值 表示 其 亮度 即 可 ,而 彩色 图 像 的 每 个 像素 至 少 
需要 三 个 值 表示 其 亮度 和 色 度 。 

1) RGB 

任何 彩色 图 像 可 由 不 同比 例 的 红 、 绿 和 蓝 色 组 合 而 成 , 即 三 基色 原理 。 
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2) YCbCr(YUV) 
人 类 视频 系统 (HVS) 对 亮度 比 彩 色 更 敏感 ,因此 可 把 亮度 从 彩色 信息 中 分 离 出 来 ， 
并 使 之 具有 更 高 的 清晰 度 。 
如 果 亮 度 分 量 用 Y 表示 , 色 度 用 Cb、Cr 表示 , 则 由 大 量 实验 得 出 : 
Y = 0. 299R + 0. 857G + 0. 114B 
b = 0.564(B — Y) (9-1) 
Cr = 0. 713(R — Y) 


RE ndm FRESHA RGB: 
R = Y + 1. 402Cr 
k = Y — 0. 344Cb — 0. 714Cr (9-2) 
B = Y +1. 772Cb 


4. 连续 视频 取样 格式 


有 三 种 不 同 的 彩色 视频 取样 格式 ,如 图 9-1 所 示 。 

A) 4:4 : 4——Y,Cb 和 Cr 具有 同样 水 平和 垂直 清晰 度 ,每 个 像素 位 置 都 有 Y、Cb 
和 Cr 分量 。 

(2) 4: 2 : 2 一 一 彩色 分 量 和 亮度 分 量具 有 同样 的 垂直 清晰 度 ,水 平方 向 上 ,每 四 个 
亮度 像素 有 两 个 Cb 和 两 个 Cr。 


(3) 4:2: 0 一 一 水 平和 垂直 方向 上 ,Cb 和 Cr 都 是 Y 的 一 半 。 
oQoooo © 
Qm Gp vw QOoQoo M O 3 oO 3 
W Gb (b Gb QoQo ÓO OO O09 © 
V .o.o 89 
(a) 4 : 4 : 4 取样 格式 。 (b) 4 : 2 : 2 取样 格式 (c)4 : 2 : 0 取样 格式 


〇 7 取样 ”@ Cb 取样 ”@ Cr 取样 
图 9-1 连续 视频 取样 格式 


9.1.2 数字 视频 压缩 编码 基础 
1. 压缩 的 必要 及 可 行 性 


视频 文件 的 数据 量 十 分 庞大 ,给 存储 和 传输 带 来 很 大 不 便 。 据 计算 ,数字 电视 如 果 
播放 ITU. R601 标准 的 未 经 压缩 的 视频 ,需要 216Mb/s 的 传输 带宽 。 如 果 按 照 这 种 码 
率 , 一 张 4.7GB 的 DVD 光盘 仅 能 存放 87s 的 视频 。 可 见 当 前 的 存储 容量 和 网 络 带宽 远 
不 能 满足 视频 数据 高 码 率 的 需求 ,所 以 视频 在 存储 或 传输 之 前 通常 需要 压缩 。 

实际 上 视频 数据 中 存在 大 量 的 元 余 信息 : 

D 空间 元 余 

空间 宛 余 是 指 画 面 中 相 邻 像素 间或 数 个 相 邻 像素 块 间 存 在 高 度 的 空间 相关 性 。 例 
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如 在 一 幅 蓝 天 白云 图 中 ,画面 中 绝 大 部 分 表示 天 空 背景 的 像素 都 是 蓝 色 的 ,白云 的 颜色 
也 是 相近 的 ,在 存储 图 像 时 ,就 不 必 存 储 每 一 点 的 数据 ,可 以 记录 下 图 像 的 特征 , 重 现 画 
面 。 这 种 代码 的 数据 量 是 很 小 的 。 因 此 说 图 像 中 相 邻 像素 间或 数 个 相 邻 像素 块 间 存 在 
高 度 相关 性 是 空间 元 余 编码 的 依据 。 

2) Ik B] JU AS 

数字 视频 的 相 邻 帧 往往 包含 相同 的 背景 和 移动 物体 ,只 不 过 移动 物体 所 在 空间 位 置 
会 有 微小 的 变动 ,这 就 产生 了 大 量 的 数据 元 余 , 称 为 时 间 元 余 。 这 样 就 可 以 通过 帧 间 预 
测 、 运 动 补偿 以 及 运动 估计 等 方法 ,获得 运动 矢量 等 极 少 量 信 息 来 表示 下 一 帧 图 像 ,从 而 
减少 帧 序列 元 余 信息 。 

3) 心理 视觉 元 余 

主要 利用 人 类 视觉 系统 对 视觉 信息 的 不 同 敏感 度 ,把 那些 不 十 分 重要 的 信息 称 作 视 
觉 元 余 , 如 人 有 眼 对 亮度 信息 比 彩色 更 敏感 ,保证 亮度 信息 时 ,可 以 把 彩色 信息 清晰 度 降 
低 ,就 可 以 显著 压缩 带宽 ,实现 视频 压缩 的 目的 。 

4) 编码 宛 余 

如 果 表 示 视 频 信 息 内 容 使 用 的 平均 比特 数 大 于 该 消息 的 信息 焙 , 则 信 源 中 存在 宛 
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2. 常用 的 压缩 策略 


为 对 视频 信息 进行 压缩 ,可 以 用 多 种 不 同 的 方法 和 策略 ,下 面 是 几 种 常用 策略 : 

1) 有 损 压缩 

有 损 压缩 会 丢弃 一 些 数据 ,以 便 获得 较 低 位 速 。 压 缩 的 过 程 中 要 丢失 一 些 人 眼 和 人 
耳 所 不 敏感 的 图 像 信息 ,而且 丢失 的 信息 不 可 恢复 。 几 乎 所 有 高 压缩 的 算法 都 采用 有 损 
压缩 ,这 样 才能 达到 低 数据 率 的 目标 。 

2) 无 损 压缩 

无 损 压 缩 即 压缩 前 和 解压 缩 后 的 数据 完全 一 致 。 因 为 在 不 丢失 信息 的 前 提 下 ,无 损 
压缩 节省 的 空间 较 少 。 

3) 心理 视频 压缩 

心理 视觉 模型 去 掉 的 是 眼睛 不 需要 的 视频 数据 。 假 设 有 一 个 在 60 秒 未 经 压缩 的 视 
频 片 段 ,视频 始终 显示 位 于 同一 位 置 的 物体 , 即 每 帧 图 像 中 都 会 重复 这 个 物体 的 数据 。 
如 果 使 用 了 心理 视觉 压缩 ,就 会 把 该 物体 在 一 帧 图 像 中 的 数据 存储 下 来 ,以 在 接 下 来 的 
帧 中 使 用 ,从 而 节省 大 量 数据 。 


9.1.3 数字 视频 常见 格式 


数字 视频 通常 包括 运动 的 图 像 、 声 音 背 景 音乐 和 音效 ,具有 数据 量 大 和 实时 性 强 等 
特点 。 针 对 不 同 的 应 用 要 求 . 有 多 种 文件 格式 : 

(1) RM 格式 : Networks 公司 所 制定 的 音频 视频 压缩 规范 称 为 Real Media, 它 主要 
包含 Real Audio、Real Video 和 Real Flash 三 部 分 ,Real Media 可 以 根据 不 同 的 网 络 传 
输 速 率 制定 出 不 同 的 压缩 比率 ,从 而 实现 在 低速 率 的 网 络 上 进行 影像 数据 实时 传送 和 
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播放 。 

(2) RMVB 格式 : 这 是 一 种 由 RM 视频 格式 升级 延伸 出 的 新 视频 格式 , 它 的 先进 之 
处 在 于 RMVB 视频 格式 打破 了 原先 RM 格式 那 种 平均 压缩 采样 的 方式 ,在 保证 平均 压 
缩 比 的 基础 上 合理 利用 比特 率 资源 ,就 是 说 静止 和 动作 场面 少 的 画面 场景 采用 较 低 的 编 
码 速率 ,这 样 可 以 留 出 更 多 的 带宽 空间 ,而 这 些 带 宽 会 在 出 现 快 速 运动 的 画面 场景 时 被 
利用 。 它 能 在 保证 静止 画面 质量 的 前 提 下 ,大 幅 地 提高 运动 图 像 的 画面 质量 。 

(3) ASF 格式 : 英文 全 称 为 Advanced Streaming Format, 它 是 微软 公司 为 了 和 现在 
的 Real Player 竞争 而 推出 的 一 种 视频 格式 ,用 户 可 以 直接 使 用 Windows 自 带 的 
Windows Media Player 对 其 进行 播放 。 使 用 了 MPEG-4 的 压缩 算法 ,所 以 压缩 率 和 图 像 
的 质量 都 很 不 错 。 

(4) AVI 格式 : 它 的 英文 全 称 为 Audio Video Interleaved, 即 音频 视频 交错 格式 ,可 
以 将 视频 和 音频 交织 在 一 起 进行 同步 播放 。 这 种 视频 格式 的 优点 是 图 像 质 量 好 ,可 以 跨 
多 个 平台 使 用 ,但 是 其 缺点 是 体积 过 于 庞大 ,而 且 更 加 糟糕 的 是 压缩 标准 不 统一 ,因此 经 
常会 遇 到 高 版 本 Windows 媒体 播放 器 播放 不 了 采用 早期 编码 编辑 的 AVI 格式 视频 ,而 
低 版 本 Windows 媒体 播放 器 又 播放 不 了 采用 最 新 编码 编辑 的 AVI 格式 视频 的 情况 。 

(5) AMV 格式 : 相对 于 MTV 格式 来 说 ,AMYV 视频 格式 比 MTV 视频 格式 有 着 更 
好 的 压缩 比例 以 及 画面 质量 。 

(6) SWF 格式 : 利用 Flash 可 以 制作 出 一 种 后 缀 名 为 SWF(Shockwave Format) 的 
动画 ,这 种 格式 的 动画 图 像 能 够 用 比较 小 的 体积 来 表现 丰富 的 多 媒体 形式 。 在 图 像 的 传 
输 方面 ,不 必 等 到 文件 全 部 下 载 才能 观看 ,而 是 可 以 边 下 载 边 看 。 此 外 ,SWF 动画 是 基 
于 矢量 技术 制作 的 ,因此 不 管 将 画面 放大 多 少 倍 , 画 面 都 不 会 因此 而 有 任何 损害 。 

(7) MPEG 格式 : MPEG 是 Motion Picture Experts Group 的 缩写 , 它 包 括 MPEG- 
1、MPEG-2 和 MPEG-4( 注 意 ,没有 MPEG-3,MP3 只 是 MPEG Layer 3), MPEG-1 广泛 
应 用 在 VCD 的 制作 中 ,可 以 说 99% 的 VCD 都 是 用 MPEG-1 格式 压缩 的 。MPEG-2 则 
是 应 用 在 DVD 的 制作 (压缩 ) 方 面 ,同时 在 一 些 HDTV( 高 清晰 电视 广播 ) 和 一 些 高 要 求 
视频 编辑 、 处 理 上 也 有 相当 的 应 用 面 。MPEG-4 是 一 种 新 的 压缩 算法 ,使 用 这 种 算法 的 
ASF 格式 可 以 把 一 部 120min 长 的 电影 (未 视频 文件 ) 压 缩 到 300MB 左右 的 视频 流 , 可 供 
在 网 上 观看 。 

(8) DivX 格式 : DivX 由 Microsoft mpeg4v3 修改 而 来 ,使 用 MPEG-4 压缩 算法 。 
MPEG4 压缩 一 部 DVD 只 需要 2 张 CDROM。 这 样 就 意味 着 ,用 户 不 需要 买 DVD ROM 
也 可 以 得 到 和 它 差 不 多 的 视频 质量 了 。 

(9) WMV 格式 : WMV(Windows Media Video) 也 是 微软 公司 推出 的 一 种 采用 独立 
编码 方式 并 且 可 以 直接 在 网 上 实时 观看 视频 节目 的 文件 压缩 格式 。WMYV 格式 的 主要 
优点 包括 本 地 或 网 络 回放 、 可 扩充 的 媒体 类 型 .部 件 下 载 、 可 伸缩 的 媒体 类 型 . 流 的 优先 
级 化 、 多 语言 支持 、 环 境 独立 性 .丰富 的 流 间 关系 以 及 扩展 性 等 。 

(10) QuickTime: QuickTime(MOV) 是 Apple( 苹 果 ) 公 司 创立 的 一 种 视频 格式 , 支 
持 MAC 机 和 Windows 平台 ,是 一 种 优良 的 视频 编码 格式 。 

(11) RGB; 对 一 种 颜色 进行 编码 的 方法 统称 为 “颜色 空间 ”或 “ 色 域 "。RGB( 红 、 绿 、 
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只 是 众多 颜色 空间 的 一 种 。 采 用 这 种 编码 方法 ,每 种 颜色 都 可 用 三 个 变量 来 表示 : 红 
a st 记录 及 显示 彩色 图 像 时 ,RGB 是 最 常见 的 一 种 方案 。 但 是 , 它 
缺乏 与 早期 黑白 显示 系统 的 良好 兼容 性 。 因 此 ,电子 电器 厂商 普遍 采用 的 做 法 是 ,将 
RGB 转换 成 YUV 颜色 空间 ,以 维持 兼容 ,再 根据 需要 换 回 RGB 格式 ,以 便 在 计算 机 显 
示 器 上 显示 彩色 图 形 。 

(12) YUV: YUV( 亦 称 YCrCb) 主要 用 于 优化 彩色 视频 信号 的 传输 ,使 其 向 后 兼容 
老式 黑白 电视 。 与 RGB 视频 信号 相 比 , 它 最 大 的 优点 在 于 只 需 占 用 极 少 的 带宽 (RGB 要 
求 三 个 独立 的 视频 信号 同时 传输 ) 。 


9.1.4 数字 视频 编码 技术 


目前 数字 视频 压缩 编码 技术 主要 采用 MPEG-X.H. 264/AVC, Real Video 等 几 种 编 
码 技术 。 对 于 用 户 而 言 , 最 关心 的 主要 有 清晰 度 、 存 储量 、 价 格 等 ,采用 不 同 的 压缩 技术 ， 
将 很 大 程度 地 影响 以 上 因素 。 


1. MJPEG 


MJPEG 是 指 Motion JPEG (Motion Joint Photographic Experts Group). 即 动态 
JPEG。 它 是 由 JPEG 专家 组 制定 的 , 它 把 视频 序列 看 做 连续 的 静止 图 像 ,不 考虑 视频 流 
中 不 同 帧 之 间 的 变化 ,只 单独 对 某 一 帧 进行 压缩 ,通常 可 达到 6 : 1 的 压缩 率 。 但 由 于 没 
有 考虑 帧 间 变 化 ,造成 大 量 宛 余 信息 被 重复 存储 。 因 为 每 帧 都 可 任意 存 取 , 所 以 MJPEG 
常用 于 视频 编辑 系统 。 动 态 JPEG 能 产生 高 质量 全屏、 全 运动 的 视频 ,但 是 , 它 需 要 依赖 
附加 的 硬件 。 而 且 , 由 于 MJPEG 不 是 一 个 标准 化 的 格式 ,各 厂家 都 有 自己 版 本 的 
MJPEG ,双方 的 文件 无 法 互相 识别 。 

MJPEG 的 优点 是 画 质 比较 清晰 ,缺点 是 压缩 率 低 ,占用 带宽 很 大 。 一 般 单 路 占用 带 
宽 2MB 左右 。 


2. MPEG-X 


(D MPEG-1, 即 VCD 标准 ,制定 于 1992 年 , 它 用 于 传输 1. 5Mb/s 数据 传输 率 的 数 
字 存 储 媒体 运动 图 像 及 其 伴音 的 编码 ,经 过 MPEG-1 标准 压缩 后 ,视频 数据 压缩 率 为 
1/100~1/200 ,影视 图 像 的 分 辩 率 为 380X240X30CNTSC 制 ) 或 360 X 288 X 25 (PAL 
制 ) , 它 的 质量 要 比 家 用 录像 系统 (Video Home System,VHS) 的 质量 略 高 。 音 频 压 缩 率 
为 1/6. 5 ,声音 接近 于 CD-DA 的 质量 。MPEG-1 的 编码 速率 最 高 可 达 4-5Mb/s, 但 随 着 
速率 的 提高 ,其 解码 后 的 图 像 质量 有 所 降低 。 

(2) MPEG-2, 即 DVD 标准 ,制定 于 1994 年 ,传输 速率 在 3— 10Mb/s. 5j MPEG-1 兼 
容 , 适 用 于 1.5—60Mb/s 甚至 更 高 的 编码 范围 。 分 辩 率 为 720X480X30CNTSC 制 ) 或 
720X576X25(PAL 制 )。MPEG-2 的 音频 编码 可 提供 左 、 右 、 中 和 两 个 环绕 声 道 ,以 及 一 
个 加 重 低音 声 道 , 和 多 达 七 个 伴音 声 道 (DVD 可 有 八 种 语言 配音 的 原因 )。MPEG-2 可 
提供 一 个 较 广 的 范围 改变 压缩 比 ,以 适应 不 同 画 面 质 量 、 存 储 容量 以 及 带宽 的 要 求 。 采 
用 MPEG-2 传输 的 视频 的 画 质 质量 最 好 ,但 同时 也 需要 非常 大 的 带宽 ,通常 在 4 一 
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15MB。MPEG-2 不 太 适 合 远程 传输 。 

(3) MPEG-4。 如 果 说 MPEG-1“ 文 件 小 ,但 质量 差 ”, 而 MPEG-2 则 “质量 好 ,但 更 占 
空间 ”的 话 , 那 么 MPEG-4 则 很 好 地 结合 了 两 者 的 优点 。 它 于 1999 年 1 月 成 为 一 个 国际 
性 标准 , 它 是 超 低 码 率 运动 图 像 和 语言 的 压缩 标准 。MPEG-4 标准 主要 应 用 于 视 像 电话 
(video phone) , 视 像 电 子 邮件 (video E-mail) 等 ,其 传输 速率 要 求 较 低 , 在 4800 — 64kb/s. 
分 辩 率 为 176X144。MPEG-4 利用 很 窄 的 带宽 ,通过 帧 重建 技术 ,压缩 和 传输 数据 ,以 求 
以 最 少 的 数据 获得 最 佳 的 图 像 质量 。MPEG-4 为 多 媒体 数据 压缩 提供 了 一 个 更 为 广阔 
的 平台 。 它 主要 提出 格式 、 架 构 的 定义 ,而 不 是 具体 的 算法 。 它 可 以 将 各 种 各 样 的 多 媒 
体 技术 充分 利用 ,包括 压缩 本 身 的 一 些 工具 、 算 法 ,也 包括 图 像 合 成 .语音 合成 等 技术 。 

MPEG-4 的 特点 是 其 更 适 于 交互 式 AV 服务 以 及 远程 监控 。MPEG-4 是 第 一 个 使 
用 户 由 被 动 变 为 主动 (不 再 只 是 观看 ,允许 用 户 加 入 其 中 , 即 有 交互 性 ) 的 动态 图 像 标准 ; 
它 的 另 一 个 特点 是 综合 性 ,从 根源 上 说 ,MPEG-4 试图 将 自然 物体 与 人 造物 体 相 融合 ( 视 
觉 效果 意义 上 的 )。MPEG-4 的 设计 目标 还 有 更 广 的 适应 性 和 可 扩展 性 。MPEG-4 标准 
的 占用 带宽 可 调 , 占 用 带宽 与 图 像 的 清晰 度 成 正比 。 


3. H. 264/AVC 


H. 264 是 MPEG-4 的 第 十 部 分 ,是 由 ITU-T 视频 编码 专家 组 (VCEG) 和 ISO/IEC 
动态 图 像 专 家 组 (MPEG ) 联 合 组 成 的 联合 视频 组 (Joint Video Team,JVT) 提 出 的 高 度 
压缩 数字 视频 编 解 码 器 标准 。H. 264 编码 器 和 解码 器 的 功能 组 成 分 别 如 图 9-2 和 图 9-3 
所 示 。 


所 当前 
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图 9-2 H.264 编码 器 


H. 264 集中 了 以 往 标准 的 优点 ,在 许多 领域 都 得 到 突破 性 进展 ,使 得 它 获得 了 比 以 
往 标准 好 得 多 的 整体 性 能 。 一 般 来 说 ,H. 264 的 数据 压缩 率 在 MPEG-2 的 2 倍 以 上 、 
MPEG-4 的 1.5 倍 以 上 。 从 理论 上 来 说 ,在 相同 画 质 、 相 同 容量 的 情况 下 ,可 比 目 前 的 
DVD 多 保存 2 倍 以 上 时 间 的 影像 。 

H. 264 是 在 MPEG-4 技术 的 基础 之 上 建立 起 来 的 ,其 编 解码 流程 主要 包括 五 个 部 
分 : 帧 间 和 帧 内 预测 (estimation) 变换 (transform) 和 反 变 换 、 量 化 (quantization) HUS fit 
化 、 环 路 滤波 (loop filter) Aij ifi Centropy coding) 。 
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图 9-3 H.264 解码 器 
1) 帧 内 预测 编码 


帧 内 编码 用 来 缩减 图 像 的 空间 元 余 。 为 了 提高 H. 264 帧 内 编码 的 效率 ,在 对 一 给 定 
宏 块 编码 时 ,首先 可 以 根据 周围 的 宏 块 预测 (典型 的 是 根据 左上 角 的 宏 块 ,因为 此 宏 块 已 
经 被 编码 处 理 ) ,然后 对 预测 值 与 实际 值 的 差 值 进行 编码 ,这 样 ,相对 于 直接 对 该 帧 编码 
而 言 ,可 以 大 大 减 小 码 率 。 

2) 帧 间 预 测 编 码 

帧 间 预 测 编 码 利用 连续 帧 中 的 时 间 元 余 来 进行 运动 估计 和 补偿 。H. 264 的 运动 补 
偿 支 持 以 往 的 视频 编码 标准 中 的 大 部 分 关键 特性 ,除了 支持 P 帧 、B 帧 外 ,还 支持 一 种 新 
的 流 间 传送 帧 一 一 SP 帧 。 码 流 中 包含 SP 帧 后 .能 在 有 类 似 内 容 但 有 不 同 码 率 的 码 流 之 
间 快 速 切换 ,同时 支持 随机 接 入 和 快速 回放 模式 。 

3) 整数 变换 

在 变换 方面 ,H. 264 使 用 了 基于 4X4 像素 块 的 类 似 于 DCT 的 变换 ,但 使 用 的 是 以 
整数 为 基础 的 空间 变换 ,不 存在 因为 取舍 而 产生 误差 的 问题 ,此 外 ,整数 DCT 变换 还 具 
有 减少 运算 量 和 复杂 度 , 有 利于 向 定点 DSP 移植 的 优点 。 

4) 量化 

H. 264 中 可 选 32 种 不 同 的 量化 步 长 , 步 长 是 以 12. 5% 的 复合 率 递 进 的 ,而 不 是 一 个 
固定 常数 。 且 变换 系数 读 出 方式 也 有 “之 ”字形 和 双 扫 描 两 种 。 

5) EI 

视频 编码 处 理 的 最 后 一 步 就 是 焙 编 码 ,在 H. 264 中 采用 了 两 种 不 同 的 焙 编 码 方法 ， 
通用 可 变 长 编码 (UVLC) 和 基于 文本 的 自 适应 二 进 制 算术 编码 (CABAC) 。 

目前 ,大 多 数 的 视频 会 议 系 统 均 采用 H. 261 或 H. 263 视频 编码 标准 ,而 H. 264 的 
出 现 , 使 得 在 同等 速率 下 ,H. 264 能 够 比 H. 263 减 小 50% 的 码 率 。 也 就 是 说 ,用 户 即 使 
是 只 利用 384kb/s 的 带宽 ,就 可 以 享受 H. 264 下 高 达 768kb/s 的 高 质量 视频 服务 。 
H. 264 不 但 有 助 于 节省 庞大 开支 ,还 可 以 提高 资源 的 使 用 效率 ,同时 令 达 到 商业 质量 的 
视频 会 议 服务 拥有 更 多 的 潜在 客户 。 


4. AVS 


AVS(Audio Video coding Standard) 是 中 国 自 主 制定 的 音 视频 编码 技术 标准 。 当 
前 ,AVS 视频 主要 面向 高 清晰 度 电视 .高 密度 光 存 储 媒体 等 应 用 中 的 视频 压缩 。 
AVS 视频 当中 具有 特征 性 的 核心 技术 包括 8X8 整数 变换 、 量 化 、 帧 内 预测 、1/4 精 
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度 像素 插值 特殊 的 帧 间 预 测 运 动 补偿 、 二 维 炉 编码 、 去 块 效应 环 内 滤波 等 。 

1) 变换 量化 

AVS 的 8X8 变换 与 64 级 量化 ,可 以 在 16 位 处 理 器 上 无 失 配 地 实现 ,完全 适应 不 同 
的 应 用 和 业务 对 码 率 和 质量 的 要 求 。 

2) 帧 内 预测 

AVS 的 帧 内 预测 技术 沿袭 了 MPEG-4 AVC/H. 264 帧 内 预测 的 思路 ,但 AVS 亮度 
和 色 度 帧 内 预测 都 是 以 8X8 块 为 单位 的 。 亮 度 块 采用 五 种 预测 模式 , 色 度 块 采用 四 种 
预测 模式 ,而 这 四 种 模式 中 又 有 三 种 和 亮度 块 的 预测 模式 相同 。 在 编码 质量 相当 的 前 提 
下 ,AVS 采 用 较 少 的 预测 模式 ,使 方案 更 加 简洁 ,实现 的 复杂 度 大 为 降低 。 

3) 帧 间 预 测 

帧 间 运 动 补偿 编码 是 混合 编码 技术 框架 中 最 重要 的 部 分 之 一 。AVS 标准 采用 了 
16X16,16X8,8X16 f 8x 8 的 块 模式 进行 运动 补偿 ,而 去 除了 MPEG-4 AVC/H. 264 
标准 中 的 85x 4 45€ 8,40€ 4 的 块 模式 ,目的 是 能 更 好 地 刻画 物体 运动 ,提高 运动 搜索 的 准 
确 性 。 实 验 表明 ,对 于 高 分 辩 率 视频 ,AVS 选用 的 块 模式 已 经 能 足够 精细 地 表达 物体 的 
运动 。 较 少 的 块 模式 ,能 降低 运动 矢量 和 块 模式 传输 的 开销 ,从 而 提高 压缩 效率 、 降 低 编 
解码 实现 的 复杂 度 。 

DEI 

AVS Hii 55€ JH Eo 8 ERE IC AUTEUR. YE AVS A a Ee UG ETR A 
残 差 数据 都 是 以 指数 哥伦布 码 的 形式 映射 成 二 进 制 比特 流 。 采 用 指数 哥伦布 码 的 优势 
在 于 : 一 方面 , 它 的 硬件 复杂 度 比较 低 , 可 以 根据 闭合 公式 解析 码 字 , 无 须 查 表 ; 另 一 方 
面 , 它 可 以 根据 编码 元 素 的 概率 分 布 灵 活 地 确定 以 k 阶 指数 哥伦布 码 编码 ,如 果 k 选 得 
AA 4 DU 4i 03 356 PT DL GEL IE fri Ji o 

AVS- 视 频 目前 定义 了 一 个 档次 Cprofile) ; 基准 档次 。 该 基准 档次 又 分 为 四 个 级 别 
evel) ,分 别 对 应 高 清晰 度 与 标准 清晰 度 应 用 。 

AVS 视频 的 主要 特点 是 应 用 目标 明确 ,技术 有 针对 性 。 因 此 在 高 分 辩 率 应 用 中 ,其 
压缩 效率 明显 比 现在 在 数字 电视 、 光 存储 媒体 中 常用 的 MPEG-2 视频 提高 一 个 层次 。 在 
压缩 效率 相当 的 前 提 下 ,又 较 MPEG-4 AVC/H. 264 的 主 应 用 模式 (main profile) 的 实现 
复杂 度 大 为 降低 。 


9.1.5 数字 视频 内 容 安全 技术 分 类 


随 着 数字 视频 技术 的 发 展 ,基于 互联 网 的 视频 商业 应 用 越 来 越 普 及 ,也 不 可 避免 地 
出 现 数字 视频 内 容 安全 与 版 权 的 问题 。 如 何 对 数字 视频 内 容 的 安全 性 进行 保护 亟待 解 
决 。 与 普通 文本 数据 不 同 ,视频 具有 数据 量 大 、 实 时 性 要 求 高 等 特点 ,为 视频 安全 问题 提 
出 更 多 难题 。 

当前 数字 视频 所 面临 的 主要 安全 问题 有 以 下 几 个 方面 。 


l. 数字 视频 内 容 保 密 
数字 视频 应 用 的 范围 扩展 到 经 济 、 军 事 、 政 治 ,教育 等 各 行 各 业 。 政 治 、 经 济 、 军 事 等 
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对 其 安全 性 要 求 很 高 ,因为 视频 数据 本 身 没 有 被 加 密 , 因 此 ,在 传输 过 程 中 ,很 容易 被 窃 
取 , 这 需要 通过 加 密 等 方法 来 保护 这 些 重要 信息 。 这 也 是 对 视频 信息 的 主要 保护 手段 。 


2. 数字 视频 版 权 保 护 


为 了 表明 对 数字 视频 作品 内 容 的 所 有 权 , 通 常 需要 在 数字 视频 作品 中 含有 所 有 者 信 
息 , 这 样 就 可 以 保护 所 有 者 的 权益 。 在 数字 视频 作品 发 行 体系 中 ,可 以 通过 一 种 拷贝 保 
护 机 制 , 即 不 允许 未 授权 的 媒体 拷贝 。 在 一 个 封闭 或 私有 的 系统 中 ,数字 视频 需要 特殊 
的 硬件 来 拷贝 和 观看 使 用 ,在 视频 作品 中 有 标识 允许 的 拷贝 数 ,每 拷贝 一 份 ,进行 拷贝 的 
硬件 会 修改 水 印 内 容 , 将 允许 的 拷贝 数 减 一 ,以 防止 大 规模 的 盗版 。 


3. 数字 视频 隐 写 与 分 析 


敌 特 机 构 、 恐 怖 组 织 等 可 能 将 国家 政治 、 经 济 等 机 密 信息 隐藏 在 视频 中 进行 传递 ,用 
于 计划 和 组 织 破坏 活动 ,使 公共 信息 网 络 成 为 破坏 社会 稳定 .危害 国家 安全 和 公共 安全 
的 通信 工具 。 


4. 数字 视频 内 容 认 证 
目前 许多 视频 编辑 和 处 理 软件 可 以 轻易 地 修改 、 伪 造 数 字 视 频 的 内 容 ,使 得 视频 内 


容 不 再 可 靠 。 因 此 需要 一 种 方法 进行 内 容 认 证 和 完整 性 校 验 来 检测 数字 视频 作品 ,判断 


9.2 数字 视频 内 容 加 密 技术 


9.2.1 数字 视频 加 密 技术 概述 


视频 加 密 技 术 是 指 一 种 为 了 提高 视频 数据 的 保密 性 而 对 视频 数据 进行 处 理 的 技术 。 
加 密 以 后 的 数据 可 以 在 公开 信道 上 安全 地 传输 而 不 必 担心 未 授权 用 户 非法 获取 视频 信息 。 

数字 视频 在 许多 方面 与 静止 图 像 有 相同 的 特性 。 为 了 保证 流畅 的 视觉 效果 ,视频 加 
密 必须 考虑 实时 在 线 能 力 ,要 求 有 很 高 的 处 理 速度 。 

数字 视频 的 加 密 算法 大 致 有 两 类 : 完全 加 密 算法 和 选择 性 加 密 算法 ,如 图 9-4 所 示 。 


输入 编码 数据 
1 i 
压缩 编码 重要 数据 | 
1 1 非 重要 数据 
DT n 
1 FF 
信道 信道 
O 完全 加 密 方法 O 选择 加 密 方法 


图 9-4 加 密 方法 
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1. 视频 加 密 的 密码 学 方法 


最 早 的 高 密级 视频 加 密 方法 是 对 全 部 视频 数据 流 直接 用 密码 技术 加 密 和 解密 ,国内 
一 般 称 传统 加 密 方法 。 

从 传统 的 数字 加 密 技 术 来 看 ,可 以 把 视频 看 作文 本 数据 ,用 经 典 的 加 密 算法 (如 
DES、AES) 进 行 加 密 青 传输 。 由 于 密码 技术 已 有 许多 安全 可 靠 的 成 熟 算法 ,以 二 维 或 多 
维 数据 表示 的 图 像 及 视频 传输 和 存储 时 都 要 映射 (如 编码 ) 变 成 一 维 数据 , 若 不 考虑 具体 
数据 特征 ,易于 直接 应 用 已 有 的 成 熟 加 密 算 法 。 其 安全 性 评价 取决 于 所 用 密 钥 ( 在 目前 
的 图 像 和 视频 加 密 方 法 中 安全 性 最 高 ) 。 

但 从 视频 的 应 用 特点 来 看 ,存在 两 种 困难 ,一 是 视频 数据 量 巨大 ,二 是 视频 在 网 络 中 
总 是 以 压缩 的 形式 传输 。 这 使 得 用 传统 的 加 密 技术 直接 加 密 视频 数据 不 可 行 : 由 于 加 密 
破坏 了 视频 数据 空间 相关 性 ,使 得 压缩 效率 降低 ,无 法 达到 网 络 传输 所 需 的 码 率 ;经 典 的 
加 密 方法 会 带 来 巨大 的 运算 负荷 和 时 延 ,不 能 满足 视频 实时 传输 播放 的 要 求 。 另 外 , 标 
识 信息 经 加 密 无 法 识别 ,就 不 能 实现 在 线 处 理 ,也 留 下 明文 攻击 隐患 。 


2. 选择 性 加 密 方法 


传统 加 密 方法 在 很 多 场合 难以 实用 。 为 此 ,人 们 研究 视频 的 信 源 特征 ,把 密码 原理 
与 视频 技术 结合 起 来 ,只 对 部 分 重要 数据 进行 加 密 , 这 就 是 选择 性 加 密 。 

1) 选择 加 密 不 同 帧 和 块 

最 基本 的 选择 性 加 密 方法 是 基于 MPEG 的 IPB 帧 结构 的 , 即 仅 加 密 工 帧 即 可 达到 加 
密 整 个 视频 序列 的 目的 ,因为 工 帧 为 关键 帧 ,P 帧 是 在 1 帧 的 基础 上 经 预测 编码 得 到 的 ， 
B 帧 是 在 P 帧 和 了 帧 的 基础 上 经 过 内 插 得 到 的 ,所 以 从 概念 上 讲 , 如 果 不 知道 相应 的 T 
帧 , 仅 有 P 帧 和 B 帧 是 没有 用 的 。 

2) 加 密 运 动 矢量 算法 

数字 视频 采用 运动 矢量 预测 技术 ,减少 了 编码 的 数据 量 , 但 它 包 含 了 大 量 的 原始 视 
频 图 像 中 的 重要 物体 信息 ,所 以 随机 改变 运动 矢量 的 符号 位 或 同时 改变 其 数值 ,再 加 上 
运动 矢量 在 预测 时 的 累积 效应 , 几 帧 之 后 就 有 面目 全 非 的 效果 。 

3) DCT 系数 置 乱 

目前 绝 大 多 数 视频 编码 标准 都 采用 了 DCT 变换 ,变换 编码 是 视频 压缩 中 的 一 种 重 
要 压缩 手段 ,在 量化 后 (特别 是 zig-zag 排序 之 后 ) 系 数 被 排 在 高 低频 上 ,通过 置 乱 .改变 符 
号 或 数值 等 方法 破坏 DCT 系数 的 原 有 特性 ,来 获得 非常 好 的 加 密 效果 。 

4) 加 密 数 据 格式 信息 

加 密 数 字 视 频 流 的 格式 信息 ,如 图 像 序列 头 信 息 、 宏 块 的 头 信 息 等 ,以 达到 非 授 权 者 
不 可 同步 的 目的 。 对 格式 信息 加 密 可 以 明显 降低 计算 量 ,但 也 存在 缺点 : 一 是 头 部 信息 
有 很 多 标准 信息 ,攻击 者 易 猜 测 ; 二 是 有 很 多 控制 信息 ,在 传输 过 程 中 被 中 间 节 点 用 于 同 
2p , 误 码 监 测 等 ,一 旦 被 加 密 , 中 间 节 点 很 难处 理 。 


240 


Qu osssnusna 


3. 数字 视频 数据 加 密 的 一 般 要 求 


视频 数据 具有 数据 量 大 、 实 时 性 要 求 高 .元 余 度 大 等 特点 ,压缩 后 视频 数据 要 求 具有 
数据 位 置 索引 等 功能 ,针对 数字 视频 的 特殊 要 求 ,视频 数据 加 密 通 常 需要 满足 以 下 要 求 ， 

CD 安全 性 。 安 全 性 是 数字 视频 加 密 的 首要 要 求 。 如 果 攻 破 加 密 算法 所 花费 的 代价 
比 视频 内 容 本 身 的 价值 还 要 高 时 ,就 可 以 认为 该 算法 是 安全 的 。 

(2) 实时 性 。 在 很 多 视频 应 用 场合 ,比如 视频 会 议 、 可 视 电 话 等 都 要 求 视频 传输 具有 
实时 性 能 ,因此 视频 加 密 算法 本 身 复杂 度 不 能 太 高 。 

(3) 压缩 比 不 变性 .“ 加 密 和 压缩 天 然 是 矛盾 ”。 在 编码 过 程 中 设计 加 密 算法 ,往往 
会 影响 视频 的 压缩 效率 。 视 频 加 密 算 法 应 该 尽 可 能 地 保证 压缩 比 不 降低 。 

(4) 格式 符合 性 。 加 密 前 后 视频 数据 的 格式 没有 发 生 改 变 ,解码 器 仍然 可 以 读 取 、 播 
放 加 密 以 后 的 视频 ,只 是 读 出 的 视频 可 能 会 达 不 到 质量 要 求 或 者 视频 没有 意义 。 

CO 容错 性 能 。 由 于 视频 的 传输 通道 中 存在 干扰 ,因此 加 密 算法 应 该 有 一 定 的 抗 品 
能 力 , 有 效 防止 错误 扩散 。 

(6) 数据 的 可 操作 性 。 对 加 密 后 的 视频 数据 可 直接 操作 ,而 不 必 进 行 先 解密 再 加 密 
的 繁琐 过 程 。 这 些 操作 可 能 包括 码 率 控制 图像 块 剪贴 和 增删 等 。 

(7) 安全 等 级 的 可 控 性 。 通 过 调节 加 密 参 数 ,可 以 较 好 地 控制 加 密 强 度 。 


9.2.2 数字 视频 加 密 典 型 算法 


到 目前 为 止 ,国内 外 的 学 者 和 研究 人 员 已 经 提出 了 很 多 种 视频 加 密 算法 ,而 且 大 都 
是 针对 H. 26X 和 MPEG-X 两 种 系列 的 视频 压缩 国际 标准 的 选择 性 加 密 算法 。 

相对 于 完全 加 密 而 言 ,选择 加 密 处 理 的 数据 量 少 . 实 时 性 高 。 因 此 主流 的 视频 加 密 
方案 都 倾向 于 对 视频 数据 进行 选择 加 密 。 但 是 选择 加 密 算 法 也 存在 问题 : 各 个 指标 之 间 
相互 制约 。 比 如 ,安全 性 要 求 越 高 ,加 密 的 数据 量 可 能 越 大 ,加 密 的 速度 也 就 越 慢 ; 加 密 
和 压缩 总 是 存在 着 矛盾 ,在 编码 过 程 中 设计 加 密 算法 ,可 能 会 破坏 原 有 数据 的 分 布 特性 ， 
从 而 降低 压缩 效果 等 。 


1. 完全 加 密 


完全 加 密 是 一 种 最 直接 的 加 密 方法 。 它 没有 考虑 视频 数据 的 特殊 结构 ,对 整个 视频 
流 采用 标准 的 加 密 算法 ,如 用 经 典 的 DES 算法 进行 加 密 , 又 如 VEA 通过 与 密 钥 相应 位 
的 异 或 来 改变 AC 和 DC 系数 的 符号 位 进行 了 加 密 。 此 算法 相对 其 他 完全 加 密 算 法 速度 
快 ,适合 实时 传输 ,但 易 受 明文 攻击 ,不 能 提供 很 高 的 安全 性 ,只 适合 代价 较 低 的 多 媒体 
应 用 。 

完全 加 密 算法 采用 的 都 是 传统 经 典 算 法 (如 DES, AES 等 ) ,它们 对 穷 举 攻击 、 只 知 密 
文 . 已 知 明文 和 选择 明文 攻击 都 有 很 好 的 防范 效果 ;其 视频 加 密 系统 具有 很 高 的 安全 性 ; 
但 是 由 于 视频 数据 量 本 身 就 很 大 ,而 且 这 些 传 统 经 典 加 密 算法 也 都 具有 很 高 的 计算 复杂 
度 , 因 此 ,完全 加 密 算法 的 计算 复杂 度 较 高 。 而 且 完 全 加 密 算法 将 视频 数据 当 作 一 般 的 
二 进 制 数 据 进行 加 密 , 没 有 考虑 视频 数据 的 数据 格式 ,不 具有 数据 可 操作 性 。 
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2. 选择 性 加 密 


D 空域 选择 加 密 

空域 选择 加 密 是 指 在 空域 中 设置 加 密 算法 ,如 对 空域 数据 进行 置 乱 、 替 换 或 者 加 密 
运动 矢量 等 。Spanos 和 Maples 提出 的 Aegis 安全 系统 属于 空域 选择 加 密 。 该 系统 采用 
DES 等 算法 对 工 帧 进行 加 密 , 此 外 , 它 还 加 密 了 视频 序列 的 头 部 信息 。 

为 了 进一步 隐藏 MPEG 的 标识 信息 ,Aegis 系统 对 MPEG 视频 流 中 的 32 位 ISO f 
也 做 加 密 , 以 进一步 提高 安全 性 。 该 算法 运算 量 小 .实时 性 好 ,但 是 安全 等 级 不 够 。 在 
P 帧 和 B 帧 中 残留 有 未 经 预测 的 1 块 ,这 样 通过 预测 累加 可 以 恢复 出 部 分 视频 内 容 。 而 
且 对 头 信 息 的 加 密 将 使 算法 不 具有 格式 符合 性 。 

2) 变换 域 选择 加 密 

Tang 提出 的 “之 ” 字 扫 描 扰 乱 重 排 法 ,是 将 64 个 DCT 系统 完全 置 乱 , 以 此 实现 加 
密 。 但 这 违背 了 “之 ” 字 扫 描 的 能 量 大 小 排列 顺序 ,降低 了 压缩 效率 。 根 据 L. Qiao 等 分 
析 表 明 , 采 用 随机 置 乱 方式 代替 “之 ” 字 扫 描 , 不 但 大 大 降低 了 压缩 比 ,而 且 使 得 密码 系统 
不 能 抵抗 已 知 明文 攻击 。 

A. S. Tosum 等 对 Tang 的 算法 做 了 改进 ,将 64 个 DCT 系数 按照 频带 划分 为 三 段 。 
Tosum 建议 的 分 层 方法 为 (4,19), 即 第 一 层 为 1 一 4 点 ,第 二 层 为 5 一 18 点 ,第 三 层 为 
19—64 点 。 在 每 一 层 内 置 乱 相对 于 64 点 完全 置 乱 ,能 够 获得 较 高 的 压缩 比 , 但 这 是 以 降 
低 安 全 性 为 代价 的 。 

Shi 用 蜡 或 运算 只 改变 帧 内 宏 块 的 DCT 系数 符号 位 和 运动 矢量 符号 位 ,基本 思想 是 
用 随机 产生 的 密 钥 流 与 DCT 系数 符号 进行 按 位 异 或 运算 ,然后 将 加 密 后 的 符号 相应 地 
赋 回 给 原 数 据 。 该 算法 大 大 降低 了 运算 量 ,速度 快 ,能 够 满足 实时 性 的 要 求 , 但 不 能 提供 
可 靠 的 安全 性 ,攻击 者 可 以 假定 各 系数 的 符号 均 为 正 ( 或 负 ) ,这 样 即 可 获取 部 分 信息 。 

DECE E EED 
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高 的 安全 等 级 和 较 小 的 数据 膨胀 ,但 是 通常 算法 比较 复杂 ,实现 起 来 有 一 定 难 度 。 
Jiangtao Wen 等 提出 的 码 字 序 号 加 密 法 就 是 其 中 一 种 , 它 将 加 密 区 域 分 为 定 长 编码 和 可 
变 长 编码 ,给 码 表 的 每 一 个 码 字 分 配 一 个 索引 序号 ,对 串联 索引 序号 进行 加 密 , 而 不 是 对 
码 字 内 容 进行 加 密 , 然 后 将 加 密 的 索引 序号 映射 回 原来 的 码 表 中 ,由 此 完成 码 流 的 加 密 。 

该 算法 具有 很 好 的 格式 符合 性 和 安全 性 ,但 是 会 涉及 拆 分 VLC 码 表 ,算法 复杂 ,不 
易 实 现 。 

4) 部 分 码 流 加 密 

为 了 减少 加 密 的 数据 量 ,部 分 码 流 加 密 选 择 了 对 压缩 流 中 的 部 分 码 流 进行 加 密 。 例 
如 ,可 以 将 编码 以 后 的 码 流 分 层 若干 个 “ 码 段 ”, 然 后 选择 部 分 “ 码 段 ”进行 加 密 。 由 Qiao 
和 Nahrstedt 提出 的 VEA 加 密 算法 可 以 归 为 部 分 码 流 加 密 。 该 算法 首先 将 需要 加 密 的 
码 流 分 成 128 个 字 节 的 块 ,再 根据 密 钥 将 每 个 块 分 成 奇偶 两 列 , 然 后 进行 异 或 运算 。 接 
下 来 将 异 或 的 结果 与 先前 奇偶 列 中 的 一 列 (此 列 经 过 了 DES 加 密 处 理 ) 级 联 输出 。 经 过 
这 样 的 处 理 , 运 算 量 大 大 降低 。Ali Saman Tosum 对 VEA 进行 了 改进 ,对 序列 进行 两 次 
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奇偶 分 离 。 这 样 加 密 的 数据 量 又 减少 了 一 半 。VEA 加 密 算法 的 优点 是 在 获得 较 高 安全 
等 级 的 同时 大 大 降低 了 运算 量 ,并 且 保 持 了 压缩 比 不 降低 ;缺点 是 不 具有 格式 符合 性 、 不 
具备 安全 等 级 可 控 性 和 数据 的 可 操作 性 。 

选择 性 加 密 算法 仅仅 对 整个 压缩 编码 过 程 的 某 一 个 或 某 几 个 模块 进行 加 密 , 所 以 其 
加 密 效 果 和 抗 攻击 性 都 不 如 完全 加 密 算 法 。 由 于 选择 性 加 密 算法 在 计算 复杂 度 、 视 频传 
输 实 时 性 方面 带 来 的 好 处 远大 于 其 在 安全 性 上 的 不 足 , 所 以 目前 越 来 越 多 的 科研 人 员 把 
研究 重点 放 在 了 选择 性 加 密 上 ,如 何 增强 其 安全 性 成 为 最 重要 的 因素 。 


3. 基于 混沌 的 视频 加 密 技 术 


混沌 序列 是 一 种 非 线性 序列 ,其 结构 复杂 ,难以 分 析 和 预测 ,混沌 系统 可 以 提供 具有 
良好 随机 性 、 相 关 性 和 复杂 性 的 伪 随 机 序列 ,这 些 都 是 很 有 吸引 力 的 特性 ,使 其 有 可 能 成 
为 一 种 可 实际 被 选用 的 流 密码 体制 。 从 英国 数学 家 Mattews 明确 提出 用 混沌 系统 来 产 
生 序 列 密码 以 及 后 来 Pecora 和 Carroll 提出 混沌 自 同步 方法 以 来 ,混沌 同步 保密 通信 在 
国际 电子 工程 界 得 到 了 广泛 的 研究 。 

选用 何 种 混沌 系统 能 产生 满足 密码 学 各 项 要 求 的 混沌 序列 是 目前 各 国 密码 学 者 大 
力 研究 的 问题 。 比 较 典 型 的 有 1989 年 , Matthews 提出 用 Logistic 混沌 映射 改进 成 的 迭 
代 混 沌 系统 。1992 4 , Pecora 和 Carroll 提出 著名 的 Lorenz 系统 。 法 国 Besancon 大 学 
Goedgebuer 等 利用 可 调 激光 二 极 管 研制 了 一 个 光 传 输 数据 的 系统 。 

Shannon 在 信息 论 中 证 明 ,要 实现 完全 的 保密 , 即 具 有 完全 的 抗 破译 能 力 ,必须 能 够 
产生 无 限 长 随机 序列 密码 ,此 所 谓 “ 一 次 一 密 ”。 但 是 在 设计 密码 系统 时 要 产生 比 明文 序 
列 还 要 长 的 随机 序列 非常 困难 和 复杂 度 高 并 且 也 会 给 密 钥 管理 带 来 极 大 的 不 便 。 因 此 
在 实际 应 用 中 往往 使 用 随机 性 能 略 低 于 随机 序列 的 伪 随 机 序列 作为 代替 ,进行 加 密 。 显 
然 ,高 性 能 的 伪 随 机 密 钥 流 的 产生 和 同步 是 决定 系统 性 能 的 关键 因素 。 

时 空 混沌 流 加 密 的 算法 简单 ,只 需 将 产生 的 混沌 伪 随 机 二 进 制 序 列 与 编码 产生 的 视 
频 压缩 流 逐 位 进行 位 操作 即 可 。 由 于 时 空 混沌 序列 的 高 度 伪 随 机 特性 ,因此 该 加 密 算法 
具有 很 高 的 安全 等 级 。 


9.3 数字 视频 隐 写 与 水 印 技术 


9.3.1 数字 视频 隐 写 技术 


目前 的 隐 写 技术 大 部 分 还 是 集中 在 静止 图 像 方法 ,并 出 现 了 一 些 比较 成 熟 的 方法 ， 
如 空间 域 的 LSB 替换 隐 写 、 相 邻 像素 对 差分 隐 写 等 。 虽 然 数字 视频 可 看 作 一 系列 静止 图 
像 组 成 ,但 如 果 直 接 把 针对 静止 图 像 的 隐 写 方法 用 于 数字 视频 , 则 会 存在 不 能 准确 提 
取 或 影响 视频 质量 等 问题 ,再 加 上 具体 视频 编码 压缩 格式 的 限制 ,更 容易 造成 技术 应 
用 上 的 局 限 性 。 因 此 ,数字 视频 隐 写 技术 需要 根据 视频 数据 的 特点 来 设计 合适 的 隐 写 
算法 。 
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1. 数字 视频 隐 写 的 通信 模型 


Simmons 于 1983 年 提出 的 “办 犯 问题 "是 一 个 经 典 的 隐 写 系统 ,根据 数字 隐 写 的 办 
犯 模 型 ,视频 数字 隐 写 的 典型 通信 模型 如 图 9-5 所 示 。 在 该 通信 模型 中 ,发 送 方 使 用 一 
定 的 信息 嵌入 方法 和 密 钥 将 秘密 信息 m 内 入 到 载体 视频 。 中 ,形成 载 密 视频 *。 在 公共 
信道 中 传输 时 ,s 可 能 会 遭受 各 种 处 理 与 攻击 。 接 收 方 得 到 经 过 各 种 处 理 与 攻击 的 载 密 
视频 后 ,按照 信息 提取 方法 和 双方 共享 的 密 钥 从 中 提取 出 秘密 信息 羡 ,从 而 完成 隐蔽 
通信 过 程 。 


载体 视频 c 
' "— 
秘密 信息 m 一 一 | ”载体 视频 载 密 视频 公 
; 
安全 信道 | 道 
密 钥 发 生 器 处 理 /攻击 
yas 5 
秘密 信息 必 一 | ”信息 提取 IRIN i 


图 9-5 数字 视频 隐 写 的 通信 模型 
为 了 对 抗 处 理 , 需 要 考虑 的 是 鲁 棒 性 问题 ,而 对 抗 攻击 时 考虑 的 则 是 安全 性 问题 。 
2. 数字 视频 隐 写 的 特点 


因为 视频 序列 基本 上 可 以 看 成 是 一 系列 连续 的 静止 图 像 组 ,所 以 它 在 隐藏 技术 的 应 
用 模式 和 设计 方案 上 与 静止 图 像 是 非常 类 似 的 。 但 因 其 具有 更 大 的 可 用 载体 空间 ,在 时 
间 域 上 具有 特殊 的 压缩 特性 ,以 及 视频 应 用 系统 本 身 对 实时 性 等 的 约束 ,都 导致 了 视频 
信息 隐藏 技术 具有 自身 的 特殊 性 : 

CD 视频 信息 隐藏 具有 更 大 的 可 用 载体 空间 。 

(2) 视频 信息 隐藏 系统 必然 要 经 历 有 损 压 缩编 码 过 程 ,数字 视频 隐 写 不 仅 要 考虑 空 
间 域 和 变换 域 统计 特性 的 影响 ,还 要 考虑 相 邻 帧 间 统计 特性 即时 间 域 统计 特性 的 变化 。 

(3) 具体 的 视频 编 解码 应 用 系统 对 信息 隐藏 和 提取 算法 的 实现 提出 了 实时 性 或 准 实 
时 性 的 要 求 和 其 他 一 些 约束 条 件 (如 恒定 码 率 )。 

由 于 视频 信息 隐藏 区 别 于 静止 图 像 信 息 隐藏 的 这 些 特 殊 性 质 , 现 有 的 图 像 隐藏 算法 
还 不 能 很 好 地 保护 视频 数据 ,视频 信息 隐藏 技术 面临 着 新 的 挑战 。 


3. 数字 视频 隐 写 技术 分 类 


根据 隐秘 信息 嵌入 视频 中 的 时 机 不 同 , 视 频 中 的 数据 嵌入 策略 可 分 为 以 下 三 类 ( 钳 
人 策略 分 类 位 置 如 图 9-6 所 示 ) 。 

CO 将 数据 信息 直接 嵌入 到 原始 视频 图 像 中 ,形成 含 隐藏 数据 的 视频 信息 后 ,再 进行 
视频 编码 。 已 有 大 量 的 数据 嵌入 法 都 是 基于 此 方案 来 进行 的 ,如 时 空域 水 印 算法 。 在 视 
频数 据 编码 前 或 完全 解码 后 的 静态 序列 图 中 ,利用 人 眼 视 觉 感知 模型 HVS 或 其 他 基于 
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Hed 重建 视 
T MPEG 编 码 器 | MT MPEG 解 码 器 T. 
前 置式 内 置式 ”后 置式 E 内 置式 MER 
隐藏 隐藏 隐藏 提取 提取 


图 9-6 嵌入 策略 分 类 位 置 图 


纹理 、 区 域 等 技术 ,使 用 空域 ,变换 域 隐藏 法 ,将 数据 嵌入 到 图 像 中 ,再 将 图 像 进行 编码 形 
成 带 有 隐藏 数据 的 视频 流 。 

(2) 将 内 和 过程 引 入 到 视频 编码 器 中 。 这 一 方案 虽然 增加 了 艇 入 算法 的 局 限 性 ,但 
是 由 于 其 通常 是 通过 调制 DCT 变换 或 量化 之 后 的 系数 来 完成 信息 嵌入 过 程 的 ,这 样 可 
以 通过 自 适应 的 机 制 依据 人 的 视觉 特性 进行 调制 ,在 得 到 较 好 的 主观 视觉 质量 的 同时 又 
能 获得 较 强 的 鲁 棒 性 。 

(3) 把 水 印信 息 直接 嵌入 到 视频 压缩 码 流 中 ,其 最 大 的 优点 在 于 不 需要 完全 解码 和 
再 编码 过 程 , 降 低 隐 藏 算法 的 复杂 性 ,因此 对 整体 视频 信号 造成 的 影响 较 小 。 但 数据 的 
和 戏 入 必须 满足 视频 系统 对 视频 压缩 码 率 的 约束 ,同时 岁入 过 程 可 能 造成 对 视频 解码 系统 
中 运动 补偿 环 路 的 不 良 影响 ,因此 该 类 算法 设计 具有 一 定 的 复杂 度 。 


9.3.2 数字 视频 水 印 技术 


数字 视频 水 印 就 是 加 载 在 数字 视频 上 的 数字 水 印 , 它 利用 视频 数据 中 普遍 存在 的 宛 
余数 据 和 随机 性 把 表征 版 权 的 信息 嵌入 到 原始 视频 数据 中 ,从 而 保护 数字 产品 的 版 权 或 
完整 性 ,确保 版 权 所 有 者 的 合法 权益 。 


1. 数字 视频 水 印 的 基本 特征 


视频 数字 水 印 首先 应 该 具有 数字 水 印 的 一 般 特 征 , 如 安全 性 、 可 靠 性 .和 鲁 棒 性 、 不 可 
感知 性 。 对 于 视频 水 印 而 言 , 由 于 相 邻 帧 之 间 内 容 的 高 度 相 关 性 ,以 及 可 能 遭受 的 如 帧 
丢弃 等 各 种 攻击 ,数字 视频 水 印 还 有 一 些 特殊 的 要 求 , 例 如 : 

(1) 实时 处 理性 : 数字 视频 水 印 的 嵌入 和 提取 应 该 具有 低 复杂 度 , 必 须 在 短 时 间 内 
完成 ,以 保证 视频 数据 的 实时 编 解码 。 

(2) 随机 检测 性 : 可 以 在 视频 的 任何 位 置 、 在 短 时 间 内 (不 超过 几 秒 钟 ) 检 测 出 水 印 。 
随机 检测 性 比 实时 性 具有 更 严格 的 要 求 : 一 个 水 印 方案 是 实时 的 ,但 是 如 果 只 能 从 视频 
的 开始 位 置 按 播 放 顺 序 一 步 步 检 测 出 水 印 , 则 不 具有 随机 检测 性 ;如 果 跳 转 到 视频 的 任 
何 一 个 位 置 , 也 能 够 在 很 短 时 间 内 检测 出 水 印 , 则 具有 随机 检测 性 。 

(3) 与 视频 编码 标准 相 结 合 : 视频 数据 由 于 其 数据 量 极 大 ,在 存储 、 传 播 中 通常 先 要 
对 其 进行 压缩 ,现在 最 常用 的 视频 数据 压缩 编码 标准 是 MPEG-4 和 H. 264。 如 果 是 在 压 
缩 视频 中 嵌入 水 印 ,很 显然 是 与 视频 的 压缩 编码 标准 相 结合 的 ;如 果 是 在 原始 视频 中 绒 
和 人 水印, 由 于 水 印 嵌 入 是 利用 视频 的 元 余数 据 来 携带 信息 ,而 视频 压缩 编码 则 需要 除去 
视频 中 的 元 余数 据 ,如 果 不 考虑 视频 压缩 编码 标准 而 盲目 地 嵌入 水 印 , 则 嵌入 的 水 印 很 
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可 能 在 编码 过 程 中 就 完全 丢失 了 。 

(4) 盲 水 印 方案 : 水 印 检测 时 不 使 用 原始 视频 数据 ,以 确保 水 印 检测 能 够 实时 完 

(5) 和 鲁 棒 性 : 对 于 视频 数据 ,必须 保证 水 印 方案 对 一 些 无 意 或 故意 的 处 理 和 攻击 的 
和 鲁 棱 性 ,如 帧 平均 、 帧 丢弃 等 。 在 视频 上 的 任何 处 理 ,只 要 没有 将 视频 破坏 到 失去 使 用 价 
值 的 地 步 ,都 应 该 不 会 破坏 所 嵌入 的 水 印 。 

(6) 视频 速率 的 恒定 性 : 水 印 嵌 入 视频 数据 后 不 能 改变 视频 流 的 码 率 , 必 须 服从 传 
输 信道 规定 的 带宽 限制 ,否则 将 有 可 能 造成 解码 后 的 视频 图 像 和 声音 的 失 步 ,降低 视频 
的 质量 。 


2. 数字 视频 水 印 技术 分 类 


对 于 视频 水 印 技术 ,可 作 如 下 分 类 : 

CD 按 载体 类 型 分 类 : 包括 基于 原始 视频 的 方法 和 基于 压缩 视频 的 方法 。 基 于 原始 
视频 的 水 印 算法 ,是 对 未 经 编码 的 视频 流 数 据 直 接 进 行 处 理 , 在 原始 视频 数据 中 嵌入 水 
印 。 基 于 压缩 视频 的 水 印 算法 , 则 与 某 种 视频 压缩 标准 ,如 常见 的 MPEG-1、MPEG-2 或 
MPEG-4 相 结合 ,在 编码 视频 数据 中 嵌入 水 印 。 

(2) RARIK: 主要 可 分 为 空域 (或 时 域 ) 方 法 及 变换 域 ( 频 率 域 ) 方 法 。 空 域 替 
换 方法 是 用 待 嵌入 的 信息 替换 载体 信息 的 宛 余部 分 。 一 种 简单 的 蔡 换 方法 就 是 用 待 嵌 
入 消息 位 替换 载体 中 的 一 些 最 低 有 效 位 ,只 有 知道 隐藏 信息 嵌入 的 位 置 才能 提取 信息 。 
变换 域 方法 是 在 宿主 信号 的 某 个 变换 域 ,如 DCT 或 小 波 域 中 嵌入 信息 。 

(3) 按 密 钥 分 类 : 若 嵌 入 和 提取 采用 相同 密 钥 , 则 称 其 为 对 称 水 印 ,否则 称 为 非 对称 
水 印 ,也 称 为 公 钥 水 印 。 

(4) 按 检测 时 是 否 需 要 原始 宿主 信号 分 类 : 分 为 盲 水 印 方案 和 非 盲 水 印 方案 。 正 如 
前 面 所 讨论 的 ,一般 来 说 ,视频 水 印 方案 在 检测 时 通常 不 需要 原始 的 宿主 信号 。 但 是 ,也 
有 极 少数 方案 需要 原始 的 宿主 信号 。 

(5) 按 水 印 特性 分 类 : 可 以 将 数字 水 印 分 为 鲁 棒 水 印 和 脆弱 水 印 两 类 。 重 棒 水 印 能 
够 经 受 各 种 有 意 或 无 意 的 攻击 ;脆弱 水 印 则 对 于 信号 的 改动 比较 敏感 ,主要 可 用 于 算 改 
提示 。 这 里 主要 是 对 和 鲁 棒 水 印 进行 介绍 。 

(6) 按 水 印 的 可 见 性 分 类 : 分 为 可 见 性 水 印 和 不 可 见 性 水 印 。 现 在 一 般 研究 的 是 不 
可 见 的 水 印 ,但 是 在 一 些 应 用 中 可 能 需要 嵌入 可 见 的 水 印 ,比如 在 视频 中 嵌入 标识 信息 ， 
对 拷贝 行为 提出 警告 。 

另外 还 可 以 按 用 途 分 类 、 按 内 容 分 类 等 。 


9.3.3 数字 视频 隐 写 与 水 印 典型 算法 


1. 数字 视频 隐 写 技术 典型 算法 


1) 前 置式 隐藏 技术 研究 
前 置式 隐藏 法 (如 图 9-6 所 示 ) 最 大 的 优点 就 是 可 以 借鉴 已 存在 的 成 熟 图 像 隐 藏 方法 
来 进行 嵌入 操作 。 如 可 通过 将 水 印 或 隐藏 图 像 先进 行 量化 ,后 使 用 多 维 网 格 进行 编码 ， 
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TEC AS ROCA P 05] CERE GE ,将 编码 后 隐藏 信息 嵌入 到 载体 图 的 DCT 域 中 。 要 嵌入 一 8X 
8 DCT 的 隐藏 图 像 块 只 需要 16 个 载体 视频 的 DCT 块 。 这 样 不 仅 可 以 抵抗 MPEG Jf 
缩 ,还 能 获得 比较 高 的 信息 隐藏 量 。 

Swanson 提出 了 一 种 多 尺度 水 印 隐藏 法 ,利用 小 波 变换 及 HVS 视觉 模型 ,将 数据 信 
息 藏 人 到 视频 静态 帧 中 ,来 达到 隐藏 效果 。 此 方法 鲁 棒 性 极 高 ,可 抵抗 噪声 干扰 ,MPEG 
压缩 ,甚至 帧 重组 等 情况 。 但 缺点 是 复杂 性 太 高 ,对 每 一 帧 隐藏 数据 都 同时 引入 了 小 波 
变换 和 HVS 模型 。 

这 些 方案 虽 利用 了 比较 成 熟 的 数字 图 像 隐藏 策略 ,但 因 其 未 考虑 视频 特性 ,在 经 过 
编 解码 处 理 后 ,势必 造成 部 分 数据 的 丢失 ,为 数据 的 恢复 和 提取 带 来 很 大 的 不 利 因素 。 
其 缺点 如 下 : 

(1) 会 增加 视频 码 流 的 数据 比特 率 。 

(2) 经 MPEG 压缩 后 会 丢失 水 印 。 

(3) 容易 降低 视频 质量 。 

COD 对 于 已 压缩 的 视频 , 需 先 进行 解码 ,嵌入 水 印 后 再 重新 编码 。 这 样 带 来 的 系统 计 
算 量 较 大 ,无 法 满足 许多 应 用 系统 的 要 求 。 

2) 内 置式 隐藏 技术 研究 

目前 有 很 多 视频 隐藏 法 都 是 基于 此 种 方法 来 进行 研究 的 , 既 考 虑 了 视频 压缩 与 静止 
图 像 压 缩 相似 的 频 域 变换 特性 ,又 利用 到 视频 文件 本 身 在 速率 和 时 间 域 上 的 特点 。 如 将 
视觉 分 析 和 块 分 类 技术 应 用 到 视频 隐藏 中 动态 选取 DCT 频 域 中 的 最 佳 数据 授 入 系数 。 
它 将 DCT 亮度 块 按 其 能 量 分 布 分 为 低 活动 .边缘 .垂直 边缘 水平 边缘 和 纹理 五 大 类 ,并 
根据 块 类 型 的 不 同 分 别 将 数据 隐藏 到 不 同 的 AC 系数 中 。 

Linnartz 提出 了 另 一 种 基于 MPEG-2 中 GOP 图 像 组 的 压缩 域 谋 入 法 ,利用 GOP 结 
构 来 嵌入 数据 ,每 个 GOP 图 像 组 中 可 嵌入 6 比特 数据 。 此 方法 只 适用 于 压缩 过 程 进行 ， 
不 能 在 GOP 结构 固定 后 进行 操作 ,因此 也 就 无 法 应 用 于 需 使 用 比率 调整 来 优化 编码 效 
率 的 系统 ,因为 这 些 系 统 通常 不 限制 在 预定 的 GOP 中 。 基 于 上 述 原因 ,该 方法 在 抵抗 解 
压 和 重 压 缩 操 作 的 鲁 棒 性 方面 性 能 较 弱 。 

由 于 视频 1 帧 上 色 度 的 DCT 直流 系数 DC 是 一 个 始终 在 视频 流 中 存在 、 且 和 鲁 棒 性 很 
强 的 系数 ,所 以 戴 元 军 提出 ,将 数字 信息 经 序列 调制 后 加 入 到 工 帧 的 色 度 DCT 直流 系数 
中 ,这 样 戏 入 信息 的 鲁 棒 性 就 会 较 高 。 同 时 ,为 了 保证 视觉 上 的 不 可 见 性 ,在 修改 DC 值 
的 同时 ,要 求 其 干扰 低 于 一 定 的 门限 值 , 根 据 系数 的 大 小 自 适应 地 加 入 不 同 强度 的 水 印 ， 
从 而 实现 低 隐藏 量 但 高 鲁 棱 性 的 视频 隐藏 效果 。 这 一 类 方案 的 优点 是 : 

COD Zi UA fe DCT 系数 中 ,不 会 增加 视频 流 的 数据 比特 率 。 

(2) 易 设 计 出 抗 多 种 攻击 的 数据 嵌入 算法 。 

(D 适用 于 所 有 基于 DCT 变换 的 视频 编码 。 

缺点 是 在 操作 不 当时 容易 引起 视频 质量 的 下 降 。 

3) 后 置式 隐藏 技术 研究 

在 后 置式 隐藏 技术 类 算法 中 ,信息 隐藏 技术 已 逐渐 把 时 间 域 方面 特性 的 利用 放 到 研 
究 的 主要 层面 上 来 ,在 追求 简单 和 实时 应 用 方面 起 到 了 很 不 错 的 效果 。H&G 算法 作为 
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该 类 算法 中 的 一 个 典型 模型 ,其 基本 设计 流程 如 图 9-7 所 示 。 


DCT 系 
一 一 |_VLC 解 码 _[ 一 | 量化 量化 一 | VLC 编码 i EE 
水 印信 息 


运动 矢量 
头 部 信息 和 附加 信息 


图 9-7 H&G 算法 流程 图 


H&G 算法 首先 将 水 印 扩 频 与 自 适 应 调整 成 为 与 视频 序列 相同 尺寸 的 空间 域 水 印 图 
像 ,再 作 8X8 DCT 变换 ,然后 利用 频 域 的 线性 特性 ,将 变换 系数 与 重建 视频 DCT 系数 块 
进行 线性 释 加 来 完成 数据 嵌入 操作 。 为 避免 修改 数据 造成 的 视觉 影响 ,还 同时 引入 了 飘 
移 补偿 方案 来 提高 重建 视频 图 像 质量 和 系统 稳定 性 。 

Jordan 提出 将 数据 藏 人 压缩 视频 的 运动 补偿 中 ,因为 运动 补偿 不 易 产 生 视 觉 影响 ， 
且 艇 入 信息 可 不 需 解码 就 直接 可 从 运动 向 量 中 提取 ,即使 视频 解码 后 也 可 通过 一 步 压 缩 
来 重 提 数 据 。 此 算法 复杂 性 低 , 但 鲁 棒 性 不 高 , 且 需 统计 量 足 够 多 才能 嵌入 数据 ,数据 说 
入 量 较 小 。 

Langelear 提出 了 通过 修改 DCT 系数 的 VLC 编码 来 将 数据 直接 藏 人 视频 码 流 中 的 
方法 。 该 算法 的 思想 是 通过 在 比特 流 中 找到 一 个 相似 存在 的 VLC, 将 其 进行 替换 ,使 髓 
人 比特 能 藏 人 到 其 中 。 

朱 仲 杰 提 出 了 将 水 印 直 接 藏 人 视频 码 流 的 运动 矢量 上 。 为 达到 水 印 不 可 见 的 效果 ， 
每 个 画面 组 (一 般 12 帧 图 像 ) 中 只 藏 人 一 幅 水 印 图 像 ,将 数据 嵌入 到 所 有 的 也 帧 和 P 帧 
中 。 并 通过 在 计算 划分 好 的 运动 矢量 组 中 随机 选取 某 一 嵌入 位 置 ,根据 运动 矢量 特征 值 
与 要 嵌入 数据 的 关系 ,来 简单 修改 运动 矢量 ,使 P 值 变换 为 1 和 2 来 表示 为 0 和 1 HS 
入 ,从 而 达到 隐藏 的 效果 。 其 中 ,V; 和 V, 分 别 表示 选取 运动 矢量 的 水 平和 垂直 分 量 。 
该 算法 简单 .有效 ,并 实现 了 数据 的 盲 提取 功能 。 

由 于 这 类 方案 将 数据 直接 嵌入 到 MPEG 压缩 比特 流 中 ,其 显著 的 优点 就 是 没有 解码 
和 再 编码 的 过 程 , 因 而 不 容易 造成 视频 质量 的 下 降 , 同 时 计算 复杂 度 较 低 。 缺 点 是 数据 
的 嵌入 必须 满足 视频 系统 对 视频 压缩 码 率 的 约束 ,同时 嵌入 过 程 可 能 造成 对 视频 解码 系 
统 中 运动 补偿 环 路 的 不 良 影响 ,因此 该 类 算法 设计 具有 一 定 的 复杂 度 。 


2. 数字 视频 水 印 典型 算法 
按照 载体 类 型 的 不 同 ,数字 视频 水 印 可 分 为 基于 原始 视频 的 水 印 方法 和 基于 压缩 视 


频 的 水 印 方法 ,如 图 9-8 所 示 。 空域 水 印 
原始 视频 水 印 
D 空域 水 印 TUM pea 
Hartung 等 提出 了 借鉴 扩 频 通信 的 基本 思 Re 
想 在 未 压缩 视频 中 嵌入 数字 水 印 的 方法 。 水 印 压缩 视频 水 印 Y 访 入 脸 部 运动 参数 
嵌入 时 ,按照 空间 上 的 从 左 到 右 、 从 上 到 下 以 及 嵌入 VOP 图 像 类 型 


时 间 上 的 先后 顺序 ,将 视频 信号 看 成 一 个 一 维 信 ”图 9-8 数字 视频 水 印 的 一 种 分 类 方法 
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号 : 水 印信 号 则 经 过 扩展 、 放 大 和 调制 ,得 到 一 个 拟 随机 序列 ,采用 普通 的 加 法 将 该 随机 
序列 加 到 一 维 视频 信号 中 ,就 得 到 了 岩 入 了 水 印 的 视频 信号 。 

Kalker 等 将 视频 看 成 一 系列 的 项 态 图 像 ,在 数 个 连续 的 帧 中 嵌入 相同 的 水 印 。 这 里 
利用 了 扩 频 的 基本 思想 ,水 印 是 一 个 加 性 噪声 。 水 印 谋 入 时 ,为 了 在 图 像 活动 较 多 和 较 
少 的 区 域 ( 即 纹理 较 多 和 较 少 的 区 域 ) 采 用 不 同 的 嵌入 强度 ,并 可 以 采用 局 部 缩放 因子 。 

2) 频 域 水 印 

Degumaume 等 在 视频 序列 的 三 维 DFT 域 中 嵌入 水 印 。 因 为 在 整个 视频 序列 上 进 
行 二 维 DFT 耗费 巨大 ,所 以 首先 将 视频 序列 划分 为 连续 的 、 非 重 又 的 长 度 固 定 的 帧 序 
列 , 水 印 嵌入 或 提取 分 别 在 每 个 序列 上 重复 进行 ,在 每 个 序列 中 嵌入 相同 的 信息 。 水 印 
嵌入 时 ,将 水 印信 号 编码 成 扩 频 信号 ,对 帧 序列 进行 二 维 DET 变换 ,然后 ,选择 DFT 系 
数 的 中 频 部 分 来 嵌入 水 印 。 该 水 印 方案 对 于 空间 位 移 和 时 间 位 移 具 有 固有 的 不 变性 , 同 
时 ,由 于 扩 频 序列 的 特性 ,该 水 印 方案 也 能 抵御 简单 过 滤 .添加 噪声 .MPEG 压缩 等 处 理 。 

Swallson 等 提出 采用 三 维 小 波 变换 的 水 印 方案 。 小 波 变 换 是 用 多 个 分 辩 率 表示 信 
号 的 一 个 有 力 的 工具 。 小 波 分 解 的 多 分 辨 率 特 性 在 时 域 . 空 域 或 频 域 提供 了 信号 的 局 部 
特定 信息 ,可 以 用 于 信号 的 分 析 和 处 理 。 基 于 小 波 技术 的 数字 水 印 方案 是 近 几 年 来 的 一 
个 研究 热点 。 

3) RA DCT 系数 

Hartung 等 提出 利用 扩 频 的 思想 在 MPEG-2 EA APRA KEII. KER 
号 经 过 扩展 、 放 大 和 调制 ,得 到 一 个 伪 随 机 序列 ,然后 对 其 进行 8X8 的 DCT 变换 ,并 
将 DCT 系数 秋 加 到 MPEG-2 码 流 的 8X8 的 DCT 系数 上 。 这 里 主要 需要 考虑 两 个 
问题 : 

(1) 由 于 MPEG-2 的 DCT 系数 是 用 变 长 码 进行 编码 的 ,系数 在 添加 水 印 前 后 的 编 
码 长 度 会 发 生变 化 ,因此 ,如 果 要 求 不 增加 视频 码 流 的 长 度 ,那么 ,在 出 现 添加 水 印 后 
DCT 系数 的 编码 比特 数 增加 的 情况 时 , 仍 保留 原 有 的 系数 。 

(2) 在 MPEG-2 编码 方式 中 , 帧 间 编 码 帧 (P 帧 和 B 帧 ) 是 从 其 他 帧 预测 得 到 的 ,用 
一 个 运动 补偿 向 量 来 从 其 他 帧 重建 当前 帧 。P 帧 本 身 也 可 能 作为 其 他 帧 的 预测 参考 ,一 
个 帧 内 的 微小 变化 ,会 在 时 间 、 空 间 上 传播 开 来 。 因 此 ,在 水 印信 号 之 外 ,需要 添加 一 个 
偏 移 补偿 信和 号 ,来 补偿 前 一 帧 的 水 印信 和 号。 

Busch, Hsu, Dittmann 等 都 分 别提 出 了 基于 DCT 系数 的 视频 水 印 方法 ,这 些 方法 中 
有 部 分 借鉴 了 Koch 和 Zhao 的 静态 图 像 水 印 算法 ,同时 考虑 了 人 类 视觉 系统 的 特性 ,使 
嵌入 的 水 印 满足 不 可 感知 性 。 

4) di Ae zh rs ft 

Jordan 等 在 一 份 MPEG-4 提案 中 提出 了 一 种 直接 针对 MPEG-4 编码 视频 流 的 水 印 
方法 ,通过 修改 运动 向 量 来 嵌入 信息 。 

5) 能 入 脸 部 运动 参数 

Hartung 等 还 提出 在 MPEG-4 脸 部 运动 参数 中 嵌入 数字 水 印 的 方法 ,其 中 仍然 采用 
了 扩 频 的 思想 。 在 MPEG-4 中 定义 了 一 个 一 般 的 脸 部 .并 能 够 通过 脸 部 运动 参数 (Fadal 
Animation Parameter,FAP) 运 动 起 来 .FAP 总 共有 66 个 。MPEG-4 编码 过 程 中 从 视频 
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序列 中 确定 FAP, 可 以 将 FAP 看 成 是 随 着 时 间 变化 的 一 维 向 量 。 

6) RA VOP 图 像 类 型 

Linnartz 等 提出 在 MPEG 编码 过 程 ,根据 水 印信 息 选 择 编码 视频 帧 所 谓 的 图 像 类 型 
(picture type) 。 其 基本 思想 如 下 : 在 MPEG 中 ,图 像 类 型 分 为 1 帧 \,B 帧 和 了 帧 。 从 一 
个 工 帧 开始 ,直到 但 不 包括 下 一 工 帧 的 一 系列 帧 称 为 一 个 图 像 组 GOP, 如 果 将 每 个 GOP 
的 长 度 固定 为 12, 并 且 用 B 帧 表示 比特 1,P 帧 表示 比特 0, 则 每 个 GOP 和 一 个 二 元 序列 
存在 一 个 一 一 对 应 关系 。 将 二 元 序列 编码 为 Hamming 码 ,并 排除 掉 一 些 不 常见 的 序列 ， 
可 以 得 到 一 个 有 62 个 码 字 的 码 表 ,也 就 是 说 ,每 个 GOP 可 以 携带 近 六 比特 的 信息 ,这 对 
于 一 些 类 似 嵌 入 版 权 所 有 者 信息 的 应 用 是 足够 了 的 。 


9.4 数字 视频 隐 写 分 析 技 术 


隐 写 分 析 研 究 近 几 年 迅速 兴起 的 原因 主要 是 由 于 信息 隐藏 技术 的 实际 应 用 中 可 能 
涉及 隐蔽 通信 这 一 敏感 问题 。 但 大 多 数 研究 成 果 仍 然 仅 限于 静止 图 像 的 隐 写 分 析 ,并 且 
集中 于 较为 简单 的 LSB 模式 的 隐藏 算法 的 分 析 。 

目前 ,针对 视频 信息 隐藏 的 分 析 技 术 发 展 相 对 缓慢 ,一 方面 是 由 于 视频 信息 隐藏 及 
其 分 析 技术 需要 具备 视频 编 解 码 系统 的 研究 背景 ; 另 一 方面 是 目前 只 有 很 少 成 熟 的 视频 
信息 隐藏 软件 被 公开 。 但 数字 视频 作为 未 来 网 络 信息 资源 的 重要 组 成 ,基于 视频 资源 的 
信息 隐藏 及 其 隐藏 分 析 技 术 正 逐 步 成 为 信息 隐藏 领域 的 研究 重点 。 


9.4.1 数字 视频 隐 写 分 析 概 述 
l. 数字 视频 隐 写 分 析 技 术 的 特点 


由 于 数字 视频 和 静止 图 像 的 紧密 关联 ,因此 数字 视频 隐藏 分 析 和 静止 图 像 隐 写 分 析 
在 应 用 模式 和 设计 方案 上 都 具有 一 定 的 相似 性 ,一 些 曾 成 功 应 用 于 静止 图 像 的 隐 写 分 析 
技术 可 以 被 直接 引入 到 视频 隐 写 分 析 之 中 。 但 是 由 于 数字 视频 和 静止 图 像 间 的 差异 以 
及 数字 视频 隐 写 分 析 必 须 与 具体 的 应 用 系统 相 结合 的 特点 ,使 得 数字 视频 隐 写 分 析 与 静 
止 图 像 隐 写 分 析 相 比 , 它 还 有 自身 的 特殊 性 。 

(1) 绝对 大 的 隐藏 容量 和 相对 小 的 嵌入 比率 。 由 于 视频 资源 自身 的 数据 量 要 远 远 大 
于 一 幅 静 止 图 像 的 数据 量 ,通常 它 所 体现 出 来 的 绝对 隐藏 容量 也 很 大 。 一 个 900MB 的 
DVD 文件 可 以 隐藏 约 10MB 的 信息 ,而 一 幅 512X512 的 图 像 其 信息 隐藏 量 往往 只 有 几 
千 字 节 。 但 实际 上 ,这 种 绝对 大 的 隐藏 容量 往往 使 人 忽略 其 相对 小 的 嵌入 比率 ,按照 上 
面 的 例子 ,静止 图 像 隐藏 嵌入 算法 可 以 达到 总 数据 量 的 10 昕 的 嵌入 率 , 而 视频 信息 隐藏 
的 嵌入 率 最 多 只 有 IEH. 

(2) 对 视频 编 解码 系统 的 强 依赖 性 。 较 为 成 熟 的 视频 信息 隐藏 算法 往往 对 视频 编码 
系统 具有 较 高 的 依赖 性 ,甚至 完全 融入 编 解码 系统 之 中 。 这 是 由 于 视频 资源 必须 经 过 有 
损 压 缩编 码 系统 ,并 会 造成 部 分 信息 的 损失 。 如 果 隐 藏 算法 游离 于 这 些 视 频 编码 系统 之 
外 ,那么 视频 压缩 编码 系统 就 成 为 这 些 隐 藏 系统 必须 能 够 抗击 的 一 种 特殊 攻击 模式 。 例 
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如 一 些 将 视频 序列 作为 一 幅 幅 静止 图 像 进行 隐藏 处 理 的 空间 域 信息 隐藏 技术 ,在 这 种 高 
压缩 编码 条 件 下 ,往往 会 产生 大 量 的 检测 错误 ,必须 采用 扩 频 等 手段 来 提高 隐藏 信息 检 
测 的 正确 率 ,这 将 是 以 大 幅度 缩减 实际 数据 隐藏 量 为 代价 的 。 

G) 序列 图 像 时 间 域 相关 特性 的 利用 。 在 静止 图 像 隐 藏 分 析 算 法 中 ,多 数 是 利用 图 
像 空 间 域 和 变换 域 的 相关 特性 进行 统计 分 析 , 而 视频 信息 隐藏 系统 往往 因为 高 压缩 算法 
的 引入 使 得 这 些 相 关 特 性 消失 列 尽 ,但 视频 系统 又 提供 了 时 间 域 的 相关 特性 ,而 一 般 单 
向 的 压缩 编码 流程 使 得 隐藏 算法 很 难 估 计时 间 域 特性 的 变化 ,这 为 信息 隐藏 分 析 提 供 了 
一 个 有 力 的 工具 。 


2. 数字 视频 隐 写 分 析 的 设计 策略 


现行 的 视频 压缩 编码 系统 是 通过 一 套 完整 的 混合 体系 将 多 种 压缩 编码 技术 整合 在 
一 起 ,和 模块 间 相 互联 系 制约 。 同 时 ,标准 还 通过 严格 的 码 流 语法 将 编码 后 的 数据 流 进 
行 格式 规范 。 这 些 约 束 为 数字 视频 隐 写 技术 的 引入 带 来 许多 障碍 ,但 为 数字 视频 隐 写 分 
析 提 供 了 相应 的 思路 和 方法 。 

从 视频 码 流 语法 角度 看 , 抛 开 算法 细节 ,任何 信息 隐藏 算法 最 终 必然 是 调整 视频 码 
流 数 据 中 的 某 些 信息 ,或 改变 其 数值 ,或 改变 其 位 置 ,使 其 对 嵌入 信息 进行 必要 的 调制 ， 
从 而 实现 特殊 隐藏 信息 的 传递 。 隐 藏 分 析 系 统 如 果 能 够 准确 地 检测 出 这 种 数据 上 的 变 
化 ,就 能 够 追踪 到 隐藏 信息 的 藏身 之 地 。 

从 视频 系统 结构 的 角度 来 看 ,各 种 隐藏 算法 必然 要 与 视频 压缩 编 解 码 系 统 相 结合 
来 ,并 从 中 选择 适当 的 模块 引入 嵌入 信息 ,这 样 就 可 以 使 隐藏 的 信息 能 够 更 为 有 效 地 融 
于 视频 数据 之 中 ,同时 也 可 以 避免 视频 有 损 压 缩编 码 所 带 来 的 信息 丢失 。 相 应 地 ,隐藏 
分 析 系 统 可 以 通过 分 析 系 统 模块 之 间 的 相关 程度 ,来 定性 判断 每 个 模块 引入 信息 隐藏 的 
可 能 性 ,并 根据 局 部 数据 的 相关 特性 定量 分 析 检 测 出 可 疑 数据 。 

从 隐藏 分 析 角 度 而 言 , 对 于 MPEG-2 压缩 码 流 大 致 可 以 分 为 头 部 信息 .DCT 系数 信 
息 、 运 动 矢量 信 息 等 几 个 部 分 ,只 要 这 些 数据 元 素 具 备 随机 性 和 可 控 性 ,就 可 以 作为 信息 
隐藏 的 载体 。 通 过 分 析 视 频 压缩 编码 系统 以 及 对 视频 信息 隐藏 算法 的 总 结 ,在 视频 码 流 
中 占有 很 大 比例 的 DCT 系数 及 其 对 应 形成 的 VLC 码 字 、 运 动 矢量 等 数据 元 素 ,同时 具 
备 了 可 控 性 与 随机 性 ,它们 在 视频 压缩 编码 系统 中 可 能 形成 的 嵌入 位 置 如 图 9-9 所 示 。 

嵌入 点 1 的 信息 隐藏 算法 多 来 自 较为 成 熟 的 静止 图 像 隐 藏 技术 ,根据 其 嵌入 过 程 大 
体 可 以 分 为 两 类 . 一 种 是 在 空间 域 直 接 完 成 信息 的 嵌入 过 程 ; 另 一 种 是 图 像 经 变换 后 在 
变换 域 嵌 入 信息 ,然后 再 反 变 换 回 到 空间 域 。 综 合 分 析 这 类 算法 可 以 看 出 ,尽管 可 巾 嵌 
入 强度 自 适应 控制 机 制 来 保证 隐藏 信息 达到 感知 不 易 察觉 ,但 是 由 于 其 后 的 有 损 压 缩编 
码 具 有 一 定 的 不 可 知性 (例如 码 率 约束 、 质 量 约束 等 ) 会 对 隐藏 信息 带 来 部 分 损失 ,要 保 
证 信息 的 准确 传递 就 必须 加 大 隐藏 数据 的 元 余 或 者 谋 和 强度。 隐藏 分 析 检 测 效率 会 随 
着 嵌入 强度 的 增 大 而 提高 。 隐 藏 检测 分 析 的 另 一 个 突破 口 则 是 这 类 隐藏 算法 嵌入 信息 
的 构成 模式 : 一 种 是 各 由 嵌入 相同 的 信息 , 另 一 种 则 是 各 帧 嵌入 不 同 的 信息 。 

WAA 2 的 基本 算法 与 戏 入 点 1 相 类 似 , 只 是 能 够 利用 编码 器 中 的 部 分 信息 对 嵌入 
比特 进行 调控 ,这 样 虽然 可 以 一 定 程 度 上 提高 戏 入 调制 的 自 适应 能 力 , 但 是 增加 了 系统 
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图 9-9 MPEG-4 编码 系统 中 相应 嵌入 点 示意 图 


复杂 度 ,总 体 上 优势 不 大 ,很 少 被 人 采用 。 

嵌入 点 3 是 在 DCT 域 实 现 信息 的 嵌入 调制 的 ,这 便于 利用 DCT 域 中 人 眼 的 频率 掩 
项 效应 实现 信息 嵌入 。 

嵌入 点 4 选择 量化 后 DCT 数据 作为 信息 嵌入 的 载体 ,这 类 算法 易 产 生 大 容量 的 信 
息 嵌 入 ,然而 嵌入 点 选择 在 量化 之 后 ,使 得 嵌入 调制 对 图 像 质 量 影响 较 大 。 

嵌入 点 5 是 在 变 长 编码 后 嵌入 ,可 以 利用 现 有 压缩 码 流 作为 载体 ,只 需 对 压缩 码 流 
进行 部 分 解码 , 即 可 实现 信息 嵌入 ,但 是 算法 必须 考虑 编码 系统 码 流 格式 和 传输 条 件 等 
因素 的 约束 ,因而 算法 设计 具有 较 大 难度 。 

嵌入 点 6 选择 运动 矢量 作为 信息 嵌入 点 ,往往 不 会 直接 体现 在 当前 帧 的 编码 质量 
之 中 。 

从 以 上 分 析 可 以 看 出 ,同时 具有 随机 性 与 可 控 性 的 数据 可 以 产生 多 种 多 样 的 嵌入 方 
式 , 因 而 对 于 它们 的 检测 较为 复杂 ,有 时 难以 通过 一 种 通用 的 检测 算法 来 实现 隐 写 分 析 ， 
而 必须 根据 不 同 的 嵌入 策略 进行 针对 性 的 分 析 , 并 以 此 为 依据 设计 检测 算法 。 

总 体 来 说 ,由 于 视频 信息 隐藏 与 视频 压缩 编码 标准 的 融合 导致 的 不 确定 性 因素 太 
多 ,因此 视频 隐 写 分 析 比 图 像 隐 写 分 析 要 复杂 许多 。 若 假定 已 知 信息 隐藏 嵌入 点 则 可 以 
进行 针对 性 的 分 析 , 但 对 于 一 个 陌生 的 视频 文件 , 隐 写 分 析 方 通常 无 法 事先 获得 隐 写 算 
法 的 相关 信息 。 在 这 种 情况 下 ,一 方面 可 以 先 对 待 检视 频 进 行 隐 写 嵌入 点 的 判断 ,进而 
对 该 嵌入 点 进行 针对 性 分 析 ,而 特定 嵌入 点 上 也 可 能 存在 多 种 信息 隐藏 技术 ,这 时 可 以 
借鉴 图 像 信息 隐 写 分 析 的 方法 ,同时 结合 视频 隐 写 独 有 的 特性 ,设计 适当 的 检测 算法 ; 另 
一 方面 可 以 对 视频 码 流 中 的 众多 疑似 嵌入 点 进行 遍历 检测 ,建立 起 一 个 通用 的 完整 的 视 
频 隐 写 分 析 系 统 。 


9.4.2 数字 视频 隐 写 分 析 典 型 算法 
由 于 数字 视频 隐 写 算法 的 设计 与 视频 压缩 编 解码 系统 相 结合 ,增加 了 数字 视频 隐 写 
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分 析 的 难度 :而且 基于 内 容 的 视频 信息 隐 写 软件 在 网 络 上 难于 寻找 ,使 得 目前 视频 隐 写 
分 析 研 究 尚未 充分 展开 。 下 面 介绍 几 种 典型 的 数字 视频 隐 写 分 析 方 法 。 


1. 基于 质心 的 数字 视频 隐 写 分 析 方 法 


J. J. Harmsen 等 早 在 2003 年 就 发 表 了 关于 视频 隐 写 分 析 技 术 的 突破 性 论文 。 该 方 
案 认为 隐 项 信息 就 像 是 隐藏 在 载体 中 的 噪声 。 因 此 只 要 是 经 过 隐 写 操作 ,载体 的 性 质 就 
会 发 生变 化 。 而 加 性 噪声 的 隐藏 过 程 可 看 作 HCF(Histogram Characteristic Function) 
被 其 呈 衰 减 性 的 质心 (Center of Mass,COM) 所 量化 的 低 通 滤波 过 程 。 

其 中 , HCF 是 PMF (Probability of Mass Function) 的 离散 傅 里 叶 变 换 (Discrete 
Fourier Transformation ,DFT) 的 结果 : 


N-1 H 
HER] = DFT[AGO] = Xh) 。 exp(— 2504) (9-3) 
作为 衡量 HCF 中 能 量 分 布 的 标准 ,质心 的 定义 如 下 : 
Dk .| HŒ | 
CHED = 5S& ————— (9-4) 
x D IHO | 


ieK 
对 于 已 知 隐 写 方法 的 分 析 过 程 , 只 要 察看 测试 视频 全 局 直方 统计 在 传 里 叶 变换 域 的 
质心 HCF-COM 是 否 小 于 原始 载体 即 可 实现 判别 。 而 对 于 未 知 隐 写 机 制 的 分 析 过 程 , 则 
定义 Mahalanobis 距离 d 并 设 定 闷 值 进 行 判别 。 
d? = (X — mean)? * var ! * (X — mean) (9-5) 


理论 上 d^ 越 大 , 则 表示 该 视频 含 密 的 可 能 性 越 高 。 
2. 基于 时 域 合谋 攻击 的 视频 隐 写 分 析 方 法 


Budhia U. 等 于 2004 年 提出 了 一 种 基于 时 域 合谋 攻击 的 数字 视频 隐 写 分 析 方 法 。 
在 该 方法 的 三 个 必要 的 假设 下 ,通过 时 域 一 定 长 度 窗口 内 视频 帧 的 简单 线性 平均 操作 得 
到 窗口 中 心 的 估计 帧 Z; Onn) ,其 中 xm 和 分别 代 表 像 素 在 该 帧 的 x 一 y 的 位 置 。 该 平 
均 操 作 如 下 : 


L+ 


T—— 2,4XkGn a). 1<i<L/2 


-1 
计 L/2 


$i XkGQnaD. L/2«i« N—L/2 (9-6) 


7 1 
Zi n.n) = 4——— 
L F lí 


N 
1 E 
=< sn), = «ix 
TFI, Xm n) N—L/2xisN 


分 别提 取 测 试 帧 和 估计 帧 的 峰 度 (Kurtosisi, 高 斯 随机 变量 的 峰 度 为 0, 而 该 值 对 其 
他 大 多 数 的 分 布 都 是 非 零 的 ) A CEntropy 6E 3 — d 4E 2E t aA dec KD DL 
其 四 分 位 数 (25-Percentile ,定义 为 直方 图 25% 的 位 置 ), 并 引入 相 邻 帧 的 相关 系数 来 判定 
窗口 长 度 的 选取 是 否 成 功 。 其 中 峰 度 和 灶 的 定义 分 别 如 下 : 


E{[X— ECOT') 


LECX — EQOX! Qn 


Kurtosis — 
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Entropy —— 215.) * log; Cp, G)) (9-8) 
vi 


[HE — EL SER "E BEK E (oV EL I ACROR ES AUC, Fa] IS Fd Je e CA RN 
100% 的 条 件 下 实现 的 ,实际 应 用 中 将 不 会 出 现 这 样 的 情况 。 


3. 基于 频 域 的 数字 视频 隐 写 分 析 方 法 


基于 MPEG 系列 压缩 编码 标准 的 视频 资源 ,是 以 特定 的 码 流 格式 进行 存储 和 传输 
的 , 码 流 中 包括 多 种 编码 元 素 .例如 码头 信息 .DCT 系数 编码 信息 、 运 动 矢量 信息 等 ,信息 
隐藏 算法 正 是 利用 这 些 码 流 元 素 中 可 能 存在 的 随机 特性 ,实现 秘密 信息 的 隐藏 嵌入 ,其 
中 DCT 系数 域 及 其 对 应 的 V LC 码 字 域 是 整个 压缩 码 流 中 数据 量 最 大 的 编码 元 素 ,因此 
成 为 众多 视频 信息 隐藏 算法 首选 的 载体 数据 ,最 为 典型 的 隐藏 算法 是 中 频 赔 入 算法 。 

1) 针对 DCT 域 数字 视频 信息 隐 写 分 析 算 法 模型 

苏 育 挺 等 提出 了 基于 DOT 系数 能 量 分 布 的 统计 模型 ,针对 不 同 的 视频 码 流 信息 进 
行 编码 分 析 , 统 计 各 种 不 同 编码 图 像 块 中 所 有 DCT 系数 和 矩阵 中 各 个 位 置 上 能 量 的 相对 
关系 ,其 统计 公式 如 下 : 


N 
SABSGe 3) = > | DCT, (x,y) | (9-9) 


其 中 ,DCT, Ge. KRH n Ht 8: 8 DCT 系数 矩阵 在 (z,y) 位 置 处 的 DCT 系数 值 , N 为 
整个 视频 码 流 中 的 DCT 系数 块 数 。 

通过 对 DCT 系数 能 量 分 布 模型 进行 分 析 可 以 看 出 ,DCT 系数 能 量 数值 由 低频 到 高 
频 , 沿 水 平 、 垂 直 、 对 角 线 方向 呈现 单调 下 降 趋 势 , 同 时 ,由 于 整体 DCT 系数 分 布 沿 低频 
到 高 频 呈 现 广 义 高 斯 分 布 特性 ,导致 其 在 中 频 区 域 呈现 叫 函 数 特点 ,可 以 利用 DCT 系数 
能 量 分 布 的 这 一 特点 构建 隐藏 分 析 算 法 。 该 算法 将 为 DCT 系数 矩阵 中 每 个 系数 点 设计 
相应 的 预测 函数 PSA BS Gc y) ,来 检测 各 系数 点 呈现 的 变化 是 否 满足 原始 码 流 曲线 的 单 
调 下 降 凹 函数 的 特点 ,具体 的 预测 函数 定义 如 下 : 

PSABS(z,y) = min[ (Pu (x,y), Py Gr. 32 Pp Cr 322] (9-10) 

式 中 ,Pr(zyy),PvCz,y),Po(Cz,y) 分 别 表 示 水 平 预测 、 垂 直 预 测 、 对 角 线 方向 差 值 预测 
函数 。 


Pu Gy) 一 [SABSCz 一 1,y) 十 SABSCz 十 1,y)]/2 (9-11) 
Py Gy) = [SABSG y — 1) +SABS(z, y 4-1) ]/2 (9-12) 
Pbp(z,y) = [SABS( — 1, y — D + SABSG 3-1. y 4-1) ]/2 (9-13) 
diff(z,y) = LSABSCz,y) — PSABSCGr. y) ]/PSABSCr. y) (9-14) 


最 后 , 隐 写 分 析 算 法 根据 预测 值 PSABSCz,y) 与 实测 数值 SABSCz,y) 的 相对 关系 进 
行 判断 ,如 果 diffe KFR T, , 则 判定 为 疑似 嵌入 点 ,否则 为 正常 DCT 系数 点 。 

该 方法 依据 DCT 系数 块 的 能 量 分 布 统计 模型 ,能够 有 效 地 追踪 固定 DCT 系数 位 置 
出 现 的 能 量变 化 ,以 此 来 分 析 隐 写 算法 引入 的 可 能 。 但 现 有 的 预测 器 仅 是 利用 能 量 曲线 
的 单调 下 降 的 止 函数 特性 进行 检测 , 它 与 该 点 的 真实 DCT 系数 能 量 数值 还 存在 一 定 的 
误差 。 
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2) MSU Stego Video 视频 隐 写 分 析 方法 

MSU Stego Video 是 由 俄罗斯 的 MSU Graphics& Media Lab 组 织 开发 并 于 2006 年 
1 月 31 日 公开 发 布 的 视频 信息 隐藏 软件 , 它 能 够 在 AVI 视频 文件 中 隐藏 任意 类 型 的 信 
息 文 件 。MSU Stego Video 是 真正 意义 上 的 视频 信息 隐藏 系统 ,针对 它 的 视频 隐 写 分 析 
更 加 具有 实用 价值 。 

苏 育 挺 等 于 2008 年 对 MSU Stego Video 进行 了 分 析 。 对 其 输入 特殊 视频 序列 , 根 
据 结果 得 出 MSU 是 以 视频 流 中 的 亮度 信号 32X32 的 块 为 单元 进行 嵌入 的 结论 。 并 且 
发 现 每 个 单元 中 4 个 16X16 子 块 呈 棋盘 分 布 ,具有 交叉 调制 特征 。 于 是 根据 它 与 
MPEG 块 编码 的 差异 来 提取 特征 。 这 属于 强 针对 性 隐 写 分 析 , 它 在 一 定 噪 声 等 级 和 财 人 
比率 下 能 够 达到 一 定 的 识别 效果 ,但 通用 性 不 高 。 

Q. Z. Liu 等 针对 MSU 视频 隐 写 软件 ,提出 了 一 个 基于 广义 Markov 过 程 和 变换 域 
的 联合 分 布 特性 的 隐 写 分 析 方案 。 建 立 帧 内 、 帧 间 及 小 波 近似 子 带 的 四 个 方向 联合 分 布 
过 度 矩 阵 (12 个 ) 。 先 通过 ANONA( 方 差分 析 ) 得 到 最 优 的 496 个 特征 分 量 ,后 送 入 一 个 
具有 RBF 核 的 SVM( 支 持 向 量 机 ) 进 行 分 类 判决 。 该 方法 已 知 隐 写 机 制 ,不 具有 通用 性 ， 
且 特 征 向 量 庞大 ,运算 复杂 。 


9.5 数字 视频 取证 技术 


9.5.1 数字 视频 取证 技术 分 类 


以 数字 图 像 / 视 频 为 代表 的 数字 媒体 具有 易 传 播 ` 易 编辑 和 易 修 改 等 特性 ,使 得 普通 
和 专业 用 户 出 于 各 种 不 同 目的 ,故意 修改 甚至 恶意 传播 一 些 经 过 精心 算 改 和 伪造 的 数字 
媒体 成 为 可 能 。 数 字 媒 体 取证 (digital media forensics) 作 为 信息 安全 领域 的 一 个 新 兴 研 
究 热 点 ,是 指 从 数字 媒体 中 保持 、 收 集 、 验 证 ,识别 分析、 解释 和 表示 数字 证 据 的 科学 技 
术 问 题 。 

尽管 大 多 数 视频 算 改 伪造 不 会 引起 人 们 视觉 上 的 怀疑 ,但 是 会 不 可 避免 地 引起 视频 
统计 特性 的 某 种 变化 ,从 而 为 数字 视频 的 原始 性 、 真 实 性 和 完整 性 取证 提供 了 可 能 。 此 
外 ,通过 残留 在 数字 视频 内 部 的 捕获 设备 痕迹 以 及 视频 处 理 的 噪声 ,可 以 进行 数字 视频 
的 来 源 追 溯 和 处 理 历史 恢复 。 数 字 视 频 取证 是 数字 媒体 取证 的 一 个 重要 分 支 。 


l. 视频 算 改 伪造 行为 的 特点 及 对 视频 取证 的 影响 


数字 视频 具有 不 同 于 数字 图 像 的 特点 ,针对 数字 视频 算 改 伪造 行为 所 独 有 的 一 些 特 
点 ,应 有 针对 性 地 发 展 专用 的 取证 方法 。 

视频 自 改 伪造 相对 于 数字 图 像 来 说 更 为 复杂 和 耗 时 。 原 因 在 于 : 首先 ,数字 视频 的 
数据 量 更 大 , 且 必 须 尽 可 能 地 保持 算 改 前 后 的 时 域 一 致 性 (temporal coherency) ,克服 残 
影 (ghost shadow) 等 问题 ;其 次 ,视频 采集 后 通常 会 先进 行 压缩 编码 ,再 以 视频 流 的 形式 
进行 存储 和 传输 ,而 视频 编码 标准 众多 ,在 编码 特征 工具 和 码 流 语 法 上 存在 较 大 的 差异 ; 
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最 后 ,视频 的 算 改 伪造 除了 绝 大 部 分 为 图 像 算 改 伪造 手段 之 外 ,还 有 一 些 视频 所 特有 的 
臭 改 伪造 手段 ,这 些 手段 包括 重 投影 (利用 摄像 设备 对 已 有 的 视频 重新 录制 ) 、 帧 操作 ( 帧 
插入 、 帧 删除 和 帧 重 排序 ) 、 超 分 辨 率 重建 、 基 于 视频 对 象 的 视频 操纵 (包括 对 象 添加 、 删 
除 和 位 置 变 化 ) 等 。 

相应 地 ,视频 被 动 取证 相对 于 图 像 取 证 来 说 也 更 为 困难 ,主要 体现 在 : 

CD 数据 量 大 ,对 取证 算法 的 计算 复杂 度 的 要 求 高 。 

© 视频 在 显示 时 具有 相对 较 高 的 帧 率 ,从 视觉 上 难以 检测 出 任何 静止 的 不 一 致 
(static inconsistencies) 。 

C) 数字 视频 不 是 简单 的 比特 流 , 而 是 具有 视觉 内 容 和 空间 结构 内 容 , 并 且 可 能 分 散 
在 多 个 设备 并 以 多 种 格式 出 现 。 

OD 对 于 数字 视频 所 特有 的 自 改 伪造 手段 ,需要 进行 专门 的 分 析 与 有 针对 性 的 取证 。 

当然 ,数字 视频 取证 也 存在 有 利 的 因素 : 通过 前 后 连续 的 多 个 视频 帧 ,可 以 得 到 光 
照 \ 阴 影 ,深度 和 遮挡 等 其 他 信息 ,从 而 可 能 为 视频 取证 提供 更 多 的 线索 。 


2. 面向 真实 性 鉴别 的 数字 视频 被 动 取证 方法 


真实 性 鉴别 是 指 判 别 数字 视频 是 由 成 像 设 备 直 接 捕获 的 还 是 遭受 了 人 为 的 算 改 伪 
造 ,可 能 的 话 还 需要 确认 算 改 伪造 的 区 域 和 程度 。 根 据 取 证 特征 的 不 同 ,面向 真实 性 鉴 
别 的 视频 被 动 取证 方法 可 分 为 以 下 两 类 。 

1) 基于 视频 伪造 过 程 遗 留 的 痕迹 的 取证 

筑 改 伪造 过 程 会 不 可 避免 地 会 遗留 一 些 痕迹 ,例如 引起 视频 统计 特性 的 某 种 变化 。 
该 类 技术 的 基本 思想 是 选择 那些 能 够 描述 伪造 痕迹 的 特征 进行 取证 。 这 些 特 征 既 包括 
模糊 度 . 块 效应 和 图 像 区 域 之 间 的 相似 度 等 图 像 取 证 时 所 用 到 的 特征 ,也 包括 GOP 周期 
性 等 视频 所 特有 的 特征 。 目 前 ,该 类 方法 可 以 对 复制 -粘贴 .MPEG 双重 压缩 和 帧 操作 等 
算 改 行为 进行 取证 。 

(1) 复制 -粘贴 检测 方法 的 相似 度 检测 

掩盖 和 去 除 某 些 重 要 目标 或 者 运动 对 象 是 一 种 常见 的 视频 算 改 伪造 操作 。W. H. 
Wang 提出 将 视频 序列 分 解 为 不 同 的 子 序列 ,通过 计算 每 个 子 序列 帧 对 之 间 的 时 间 和 空 
间 相 关 和 矩阵 ,并 与 整个 视频 序列 进行 比较 ,判别 是 否 经 过 帧 复制 。 

(2) MPEG 双重 压缩 操作 的 GOP 特征 检测 

视频 算 改 通常 会 首先 对 编码 后 的 视频 进行 还 原 , 算 改 操作 后 再 重新 编码 。 因 此 , E 
改 后 的 视频 往往 经 历 了 双重 压缩 。 双 重 压 缩 等 视频 算 改 通常 会 引入 块 效 应 、 模 糊 Cblur) 
和 时 域 抖 动 (jerkiness) 等 。 这 里 可 以 直接 将 图 像 双 重 压 缩 的 自 改 检测 方法 拓展 到 视频 。 
它 结合 MPEG 视频 I.P 和 B 帧 的 特点 ,通过 计算 MPEG 视频 流 每 个 P 帧 的 运动 误差 以 
及 全 部 帧 的 平均 运动 误差 ,观察 运动 误差 的 周期 性 噪声 确定 是 否 发 生 算 改 。 

(3) 帧 操作 检测 的 时 域 统计 量 异常 检测 

帧 操作 是 常见 的 视频 处 理 操作 ,包括 帧 删除 、 帧 插入 和 帧 重 排序 。 在 基于 数字 水 印 
技术 的 自 改 伪造 检测 中 , 帧 操作 容易 检测 ,因为 它 会 造成 水 印 检测 器 失去 同步 ,导致 水 印 
信息 破坏 或 检测 失效 。 视 频 被 动 取证 时 , 则 通常 利用 视频 自 改 行为 会 导致 前 后 帧 之 间 时 
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域 统 计量 的 异常 ,例如 帧 间 预 测 运动 矢量 的 不 一 致 性 等 。 

(4) 基于 数字 视频 对 象 操纵 的 视频 修复 检测 

现 有 的 视频 被 动 取证 研究 类 似 于 图 像 被 动 取证 ,主要 采用 某 些 底层 信号 特征 来 进行 
鉴别 。 实 际 上 ,数字 视频 不 是 简单 的 比特 流 ,而 是 具有 一 定 空间 结构 的 视觉 内 容 。 对 于 
数字 视频 来 说 ,对 象 的 添加 、 删 除 或 者 修改 属于 最 受 关注 的 恶意 自 改 与 伪造 操作 ,因为 视 
频 所 包含 的 视频 对 象 ,特别 是 语义 视频 对 象 的 改变 ,往往 直接 影响 人 们 对 视频 内 容 的 理 
解 和 认识 。 相 对 于 双重 压缩 、 帧 操作 等 算 改 行为 ,基于 视频 对 象 操纵 的 视频 算 改 被 动 取 
证 更 有 意义 。 

2) 基于 成 像 设备 的 一 致 性 进行 盲 取 证 

数字 视频 在 捕获 成 像 的 过 程 中 , 受 工作 原理 和 器 件 物理 特性 的 影响 ,摄像 机 的 镜头 、 
成 像 传感器 和 数字 信号 后 处 理 都 会 在 成 像 过 程 中 遗留 下 特有 的 设备 痕迹 和 噪声 。 通 过 
验证 设备 痕迹 和 噪声 的 一 致 性 ,可 以 进行 视频 真实 性 的 被 动 取证 。 目 前 ,这 类 方法 利用 
的 主要 特征 是 传感器 的 固定 模式 噪声 (Fixed Pattern Noise, FPN) 和 光子 响应 非 均匀 性 
(Photo-Response Non-Uniformity,PRNU) 等 。 在 图 像 取 证 中 常用 的 颜色 滤波 器 阵列 
(Color Filter Array, CFA) 的 插值 方法 和 相机 响应 函数 (Camera Response Function, 
CRF) 则 极 少 用 到 视频 取证 ,原因 在 于 CFA. 和 CRF 都 是 常用 的 相机 特性 ,而 且 数 字 图 像 
和 视频 的 采集 成 像 过 程 类 似 。 

模式 噪声 的 特点 是 与 所 拍摄 的 场景 无 关 , 且 在 相机 的 生命 期 内 相对 稳定 。 若 将 模式 
噪声 视 为 一 个 扩 频 水 印 , 则 可 以 借助 水 印 处 理 基 于 相关 性 检测 手段 进行 判断 。 其 中 ， 
FPN 是 加 性 噪声 ,中 高 档 的 拍摄 设备 可 以 通过 减 去 一 个 暗 帧 进行 消除 。PRNU 则 主要 
是 由 于 半导体 晶片 的 非 均匀 性 所 产生 ,一 般 难 以 消除 。 因 此 ,通常 将 PRNU 模式 噪声 简 
称 为 PRNU 或 者 模式 噪声 。 王 俊文 等 提出 通过 维 纳 小 波 滤波 器 从 视频 中 提取 每 帧 相对 
稳定 的 残留 模式 噪声 ,并 将 一 段 视 频 中 的 每 帧 噪声 取 平 均值 从 而 建立 模式 噪声 。 通 过 比 
较 待 鉴别 帧 的 噪声 与 模式 噪声 之 间 的 相关 性 ,判别 定位 算 改 区 域 。 


3. 面向 来 源 追 溯 的 数字 视频 被 动 取证 技术 


视频 来 源 取证 是 指 根据 视频 采集 过 程 . 处 理 过 程 遗留 的 痕迹 来 确定 视频 捕获 设备 ,其 
至 设备 型 号 ,以 追溯 视频 的 来 源 。 对 于 互联 网 上 算 改 伪造 视频 的 非法 传播 ,来 源 追 溯 尤 为 
有 意义 。 甚 至 ,数字 视频 的 合法 版 权 所 有 者 也 可 以 借助 来 源 取 证 技术 进行 视频 拷贝 检测 。 

1) 基于 摄像 设备 内 在 特性 的 数字 视频 来 源 取证 

标准 视频 文件 ,例如 AVI 文件 等 都 包含 了 文件 头 信息 ,可 以 得 到 捕获 设备 .采集 时 
间 、 分 辩 率 和 帧 率 等 信息 ,但 是 它们 容易 被 修改 ,不 能 作为 取证 的 依据 。 一 种 可 行 的 方法 
是 提取 视频 捕获 设备 内 在 固有 的 一 些 特征 。 与 图 像 来 源 取证 类 似 , 数 字 视 频 的 来 源 辨识 
依赖 于 这 样 的 假设 : 同一 设备 所 获取 的 视频 数据 均 携 带 该 设备 的 内 在 特征 ,这 些 特征 只 
与 成 像 管 道 以 及 该 设备 独 有 的 硬件 元 器 件 有 关 ,与 多 媒体 数据 所 表达 的 内 容 无 关 。 与 真 
实 性 取证 类 似 ,这 类 特征 包括 相机 的 镜头 失真 (chromatic aberration) , CCD 的 缺陷 或 者 
响应 不 一 致 引起 的 传感器 模式 噪声 PRNU 等 。 例 如 利用 PRNU 模式 噪声 ,在 离散 小 波 
变换 的 基础 上 ,通过 极 大 似 然 估计 法 得 到 视频 序列 的 PRNU ,并 通过 正规 化 相关 匹配 法 
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检测 PRNU 的 存在 ,并 依据 提取 的 模式 噪声 进行 来 源 认 证 。 

2) 利用 数字 视频 码 流 特征 进行 来 源 取证 

数字 视频 来 源 取证 还 可 以 借助 输出 数据 流 的 统计 特征 进行 。 视 频 编 码 标准 通常 只 
规定 了 编码 的 框架 、 特 征 工 具 和 解码 器 比特 流 的 句法 结构 等 ,而 编码 器 的 实现 具有 相当 
大 的 灵活 性 。 因 此 ,不 同 的 商家 采用 了 不 同 的 速率 控制 方案 ,每 帧 输出 的 码 流 会 在 码 率 
的 分 布控 制 上 有 明显 的 差异 。 甚 至 ,不 同 的 运动 估计 算法 ,编码 器 采用 不 同 的 匹配 准则 、 
搜索 路 径 等 ,都 可 能 为 视频 来 源 取 证 提供 依据 。 例 如 以 一 个 GOP 作为 训练 样本 ,提取 了 
两 类 码 流 的 特征 并 用 支持 向 量 机 进行 训练 分 类 ,然后 判决 待 测 视频 序列 来 源 哪 种 类 型 的 
MPEG 编码 系统 设备 。 


9.5.2 数字 视频 取证 技术 典型 算法 


基于 数字 视频 的 取证 技术 在 研究 深度 ,广度 及 技术 成 熟 度 等 方面 都 远 滞后 于 数字 图 
像 取 证 技术 ,公开 发 表 的 学 术 论文 也 较 少 。 但 其 日 益 人 迫切 的 需求 和 巨大 的 市 场 潜 力 , 促 
使 许多 具有 静止 图 像 取证 研究 背景 的 科研 团队 将 目光 转向 了 数字 视频 。 下 面 简单 介绍 
一 些 数字 视频 取证 的 典型 算法 。 


1. 帧 复制 或 插入 、 删 除 操作 的 检测 


在 数字 视频 的 自 改 操作 中 , 帧 复制 或 插入 、 删 除 操作 是 最 简单 也 是 最 常用 的 视频 伪 
造 手 段 。 同 一 视频 序列 帧 复制 算 改 方法 也 有 和 较 大 的 破绽 ,其 最 直接 的 检测 方法 就 是 全 局 
搜索 ,但 这 种 穷 举 搜索 取证 技术 的 缺点 是 计算 量 大 ,对 自然 噪声 的 鲁 棒 性 差 。H. Farid 
提出 了 利用 视频 序列 的 时 间 和 空间 相关 性 来 找到 复制 帧 ,具体 来 说 ,首先 将 一 个 视频 序 
列 划分 为 许多 的 互相 重生 的 子 序列 ,然后 计算 每 两 两 子 序 列 的 时 间 相关 性 ,大 于 判决 门 
限 的 帧 则 标记 为 可 疑 帧 ,最 后 计算 可 疑 帧 的 每 个 子 块 的 空间 相关 性 ,如 果 结 果 大 于 判决 
门限 , 则 判 该 帧 为 复制 帧 。 该 方法 的 检测 性 能 高 ,但 执行 速度 较 慢 。 

局 部 帧 复制 的 算 改 检测 方法 也 可 以 采用 H. Farid 提出 的 块 相关 性 检测 方法 ,但 其 匹 
配 需 要 时 间 ,执行 速度 相对 较 慢 ;而 Chih-Chung Hsu 提出 利用 噪声 残 差 的 相关 性 来 定位 
算 改 区 域 的 方法 ,不 仅 速度 快 ,而 且 还 能 抵御 常见 的 局 部 修复 方法 一 一 基于 样本 的 纹理 
合成 。Hsu 首先 利用 小 波 降 噪 滤波 器 过 滤 原 始 序列 获得 了 噪声 残 差 ,然后 把 每 帧 划分 为 
ERER NXN 块 , 并 计算 每 相 邻 两 帧 对 应 空间 位 置 块 之 间 的 相关 性 ,接着 利用 简单 
门限 法 做 一 次 粗 分 类 ,最 后 用 最 大 期 望 的 方法 (Expectation-Maximization ,EM) 估 计 出 高 
斯 混合 模型 (Gaussian mixture model,GMM) 的 参数 .根据 估计 的 参数 ,使 用 贝 叶 斯 分 类 
器 找到 最 优 门限 值 。 该 方法 不 需要 预先 得 到 噪声 残 差 的 统计 特性 ,检测 效果 好 ,但 对 太 
亮 或 太 暗 的 区 域 会 产生 虚 警 ,因为 这 些 块 的 噪声 残 差 能 量 都 比较 小 ,容易 受 量化 噪声 的 
影响 。 

针对 帧 插入 和 帧 删除 的 自 改 操作 ,Min Wu 提出 了 利用 视频 序列 块 效应 时 域 模型 的 
检测 方法 。MPEG 压缩 会 在 不 同类 型 的 视频 帧 中 引入 不 同 的 块 效 应 ,在 给 定 了 GOP 结 
构 的 情况 下 , 块 效 应 的 强度 是 一 个 随时 间 变 化 的 常规 模型 函数 。 如 果 插 入 或 删除 了 一 个 
MPEG 视频 文件 的 某 几 帧 ,接着 重新 压缩 成 MPEG 文件 , 则 第 一 次 压缩 引入 的 块 效 应 仍 
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然 存 在 , 且 会 依据 删 帧 或 插 帧 数目 和 第 一 次 压缩 GOP 结构 类 型 的 不 同 ,对 第 二 次 压缩 引 
入 的 块 效应 平均 强度 造成 不 同 影响 。 通 过 提取 MPEG 视频 的 特征 曲线 的 不 一 致 性 , 检 
测 出 GOP 结构 的 变化 ,从 而 揭示 出 算 改 操作 。 该 方法 对 视频 内 容 的 变化 不 敏感 , 鲁 棱 性 
高 , 且 容 易 结合 其 他 特征 量 如 预测 误差 ,从 而 提出 更 全 面 的 取证 算法 。 


2. 模糊 检测 


在 伪造 自 改 者 经 过 复制 -粘贴 自 改 操作 后 ,为 了 消除 伪造 视频 上 的 算 改 痕迹 ,往往 会 
对 自 改 部 分 进行 如 缩放 旋转、 模糊 预先 处 理 和 润 饰 操作 。 在 对 算 改 部 分 进行 缩放 、 旋 转 
操作 后 ,会 在 算 改 视频 中 留 有 重 采样 的 痕迹 ,尽管 这 种 痕迹 不 会 引入 视觉 上 的 差别 ,但 由 
于 插值 (上 采样 或 下 采样 ) 的 原因 ,经 重 采样 后 算 改 视频 块 的 像素 与 其 周围 像素 之 间 会 产 
生 周 期 性 的 关系 。Zhang 提出 利用 运动 物体 的 轨迹 和 运动 前 景 的 不 一 致 性 来 检测 出 
ghost 模糊 效应 。 首 先 通过 块 匹 配方 法 将 视频 每 帧 分 为 运动 前 景 和 背景 两 部 分 ,并 建立 
运动 前 景 马赛 克 模 型 。 利 用 连续 帧 差 信 号 和 数学 形态 模型 计算 出 运动 物体 的 轨迹 。 如 
果 运 动 前 景 的 马赛 克 模 型 与 运动 轨迹 相 一 致 , 则 判 该 序列 为 完整 的 ,否则 , 判 该 视频 序列 
经 过 了 模糊 复 改 操作 。 


3. MPEG 双重 压缩 检测 


算 改 后 的 视频 一 般 都 是 像素 域 的 ,所 以 需要 重新 压缩 一 次 。 如 果 原 始 视 频 是 MPEG 
格式 ,修改 后 仍旧 保存 为 MPEG 格式 , 则 视频 序列 就 经 过 了 MPEG 二 次 压缩 操作 ,这 是 
一 种 不 可 逆 的 有 损 压 缩 过程 。 由 于 MPEG 二 次 压缩 操作 对 视频 数据 进行 了 两 次 量化 , 引 
和 了 一 次 MPEG 压缩 所 没有 的 特征 ,通过 统计 检测 很 容易 发 现 视频 是 否 经 过 了 MPEG 
二 次 压缩 。 当 然 , MPEG 二 次 压缩 并 不 说 明 视 频 一 定 就 经 过 了 算 改 ,有 些 未 算 改 的 视频 
为 了 节省 存储 空间 也 会 引入 MPEG 二 次 压缩 。 

视频 可 以 看 成 由 一 系列 的 图 像 组 成 ,因而 视频 二 次 压缩 检测 方法 也 就 可 以 借鉴 图 像 
领域 的 检测 方法 。W. H. Wang 提出 了 MPEG 二 次 压缩 检测 方法 ,指出 视频 二 次 压缩 会 
引入 空域 痕迹 和 时 域 痕迹 。 在 空域 中 ,一 个 视频 序列 被 分 为 一 系列 的 图 像 ,并 把 MPEG 
二 次 压缩 码 流 中 的 工 帧 看 做 是 一 个 经 过 JPEG 二 次 压缩 的 图 像 ,因此 ,JPEG 二 次 压缩 检 
测 方法 可 以 直接 扩展 到 视频 编码 系统 中 ;在 时 域 中 , 当 有 帧 插入 或 删除 时 ,连续 几 个 帧 的 
运动 估计 误差 的 分 布 会 呈现 周期 性 ,这 个 特点 也 可 以 用 来 鉴别 MPEG 二 次 压缩 。 但 是 该 
方法 有 很 多 的 限制 条 件 , 比 如 需要 一 帧 中 所 有 宏 块 的 量化 参数 都 是 一 样 的 , 且 第 二 次 压 
缩 的 量化 参数 要 比 第 一 次 压缩 的 小 等 。 在 实际 的 编码 系统 中 ,一 般 只 能 改变 其 输出 码 
率 , 而 不 允许 直接 修改 量化 参数 。 因 此 ,该 方法 离 实际 的 应 用 还 有 很 大 的 距离 。 

Yun Q. Shi 发 现 经 过 一 次 压缩 编码 后 的 视频 宏 块 的 第 一 个 非 零 的 量化 AC 系数 的 
分 布 服从 广义 的 第 一 定律 ,其 公式 如 下 : 


P(x) = Niogl0 (1+ 1). zc— 1.2.9.9 (9-18) 
str 


工 为 第 一 个 非 零 的 量化 AC 系数 的 值 , N、s、g 为 精确 描述 其 分 布 曲线 的 参数 。 而 
MPEG 二 次 压缩 操作 将 打破 该 分 布 ,使 得 第 一 个 非 零 的 量化 AC 系数 的 分 布 不 再 服从 第 
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一 定律 。 通 过 计算 曲线 的 三 个 拟 合 性 能 评价 参数 : 平方 和 误差 (Sum of Squares Due to 
Error, SSE) ,相关 系数 (Coefficient of Multiple Determination. R-square) , 均 方 根 误差 
(Root Mean Squared Error, RMSE) ,以 及 归 一 化 概率 分 布 曲线 的 9 个 值 ,组 成 了 12 维 的 
特征 量 , 每 种 类 型 帧 都 能 提取 12 维特 征 , 所 以 一 共 36 维特 征 。 以 图 像 组 (GOP ) 为 检测 
单元 ,针对 多 个 PB 帧 的 情况 , 先 计算 每 帧 12 维特 征 ,然后 平均 每 种 类 型 帧 的 特征 向 量 ， 
最 后 再 联合 I 帧 的 12 维特 征 一 起 输入 到 SVM 中 进行 判决 。 如 果 判 为 经 过 了 二 次 压缩 
的 GOP 个 数 占 整 体 的 百分比 超过 了 自 定 义 门限 时 ,就 判 该 视频 序列 经 过 了 二 次 压缩 操 
作 , 否 则 判 为 原始 压缩 序列 。 该 方法 能 够 适应 变 码 率 (VBR) 和 定 码 率 (CBR) 两 种 情况 ， 
且 性 能 较 佳 。 但 该 方法 比较 适应 于 前 后 两 次 为 同一 编码 器 的 情况 , 且 对 帧 错位 操作 非常 
敏感 。 


4. 数字 视频 来 源 取证 方法 


目前 有 很 多 种 数字 设备 都 可 以 生成 数字 视频 ,视频 来 源 认证 就 是 要 在 不 明 视 频 来 源 
的 情况 下 , 单 从 数字 视频 本 身 来 判别 它 的 生成 设备 。 不 同 摄取 设备 来 源 的 数字 视频 虽然 
在 视觉 上 区 别 不 大 ,但 由 于 各 种 视频 生成 设备 特征 的 不 同 ( 如 镜头 、 感 光 器 件 ) ,其 生成 的 
数字 视频 也 会 有 不 同 的 特征 , 现 有 的 视频 来 源 认证 就 是 通过 提取 这 些 能 够 区 别 视频 来 源 
的 特征 ,建立 特征 库 , 对 数字 视频 的 来 源 进行 盲 认证 。 

已 有 的 取证 算法 大 多 利用 传感器 的 缺陷 来 鉴别 视频 其 来 源 。 比 较 经 典 的 方法 是 
Kurosawa 提出 的 CCD 芯片 的 暗 电 流 不 一 致 性 。 这 个 方法 假设 CCD 中 某 些 像素 的 暗 电 
流产 生 率 会 偏离 平均 值 ,而 这 些 缺 陷 像素 造成 了 一 个 固定 的 模式 噪声 , 它 对 一 个 单独 的 
摄像 机 来 说 是 独一无二 的 ,利用 它 便 可 鉴别 视频 其 来 源 。 而 M. Chen 扩展 他 们 的 图 像 定 
向 技术 到 视频 领域 ,并 提出 利用 数字 传感器 的 响应 不 一 致 性 PRNU 来 鉴别 数字 摄像 机 来 
源 。 由 于 硅 片 的 不 均匀 性 以 及 摄像 机 制造 过 程 的 不 完美 性 ,造成 像素 传感器 对 光 具 有 不 
同 的 敏感 度 。 这 种 属性 不 随时 间 变 化 ,与 图 像 传感器 是 一 一 对 应 的 。M. Chen 的 方法 是 
利用 最 大 似 然 估计 从 帧 序列 中 估计 出 PRNU, 并 利用 归 一 化 互相 关 函 数 来 检测 PRNU 
的 存在 。Wiger van Houten 也 是 利用 摄像 机 的 PRNU 函数 来 鉴别 视频 来 源 , 但 不 同 的 
是 他 提出 一 种 基于 小 波 技 术 的 PRNU 提取 方法 。 


E 考 题 


9.1 什么 是 4:2:2 标 准 和 4:2:0 标 准 ? 在 制定 这 两 个 标准 时 考虑 到 了 哪些 因素 
(依据 )? 
9.2 对 于 数字 RGB 坐标 中 的 下 列 彩色 ,确定 它们 在 YCbCr 坐标 中 的 值 。 
(1) (255,255,255); 
(2) (0.255.0); 
(3) (255,255,0); 
(4) (0,255,255), 
9.3 假设 一 个 8 EIR RER ER D fap fe 5. Hb EE PS RB o ? 
9.4 数字 视频 水 印 与 传统 图 像 水 印 技 术 有 哪些 不 同 点 ? 
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9.5 试 比较 完全 加 密 和 选择 性 加 密 的 优 缺 点 。 
9.6 简 述 基于 LSB 数字 视频 技术 的 信息 隐藏 与 提取 。 
9.7 举例 说 明 数 字 媒 体 的 知识 产权 保护 问题 (至 少 三 个 例子 ) 。 


[10] 


[11] 


[12] 


[13] 


[14] 


[15] 


[16] 


[17] 


[18] 


[19] 


参考 文献 


[1] 毕 厚 杰 ,五 健 . 新 一 代 视 频 压缩 编码 标准 一 一 H. 264/AVC. 北京 : 人 民 邮 电 出 版 社 ,2009. 


陈 威 兵 , 杨 高 波 , 陈 日 超 , 等 .数字 视频 真实 性 和 来 源 的 被 动 取 证 . 通信 学 报 ,2011,32(6) :177-183. 
裴 智 勇 , 张 春 红 . H. 26x 与 MPEG-x. 电信 工程 技术 与 标准 化 ,2005. 
施 昌 林 . 视频 隐 写 分 析 算 法 研究 ， 上 海 交 通 大 学 硕士 论文 ,2009. 
TA. 基于 H. 264 的 视频 内 容 安全 技术 研究 . 北京 机 械 工 业 学 院 硕士 论文 ,2008. 
REEE EWE. 视频 加 密 算法 及 其 发 展现 状 . 信息 与 控制 ,2004,33(5) :560-566. 
Wee S J. Apostolopoulos J G. Secure scalable video streaming for wireless networks. In; 
Proceedings of the IEEE International Conference on Acoustics, Speech , and Signal Processing, Salt 
Lake City,2001. 2049-2052. 
Zeng W J, Lei S M. Efficient frequency domain selective scrambling of digital video. IEEE 
Transactions on Multimedia, 2003,5(1) 118-129. 
Noorkami M, Mersereau R M. A framework for robust watermarking of H. 264-encoded video with 
controllable detection performance. IEEE Transactions on Information Forensics and Security, 
2007,2(1): 14-23. 
Tian L, Zheng N, Xue J,et al. A CAVLC-based blind watermarking method for H. 264/AVC 
compressed video. In; Proceedings of IEEE Asia-Pacific Services Computing Conf. , 2008, 
1295-1299. 
Noorkami M. Mersereau R M. Compressed-domain video watermarking for H. 264. In: 
Proceedings of IEEE International Conference on Image Processing 2005 ,890-893. 
Richardson I E. H. 264 and MPEG-4 Video Compression; Video Coding for Next-Generation 
Multimedia. Hoboken.NJ: Wiley.2003. 
Petitcolas F A P, Anderson R J. Kuhn M G. Information Hiding-A Survey. Proceedings of IEEE. 
1999,87(7) 11062-1078. 
Koch E,Zhao J. Towards robust and hidden image copyright labeling. In: Proceedings of IEEE 
Workshop on Nonlinear Signal and Image Processing. Neos Marmaras, Greece. 1995 ,452-455. 
A Popescu, Farid H. Exposing digital forgeries by detecting traces of re-sampling. IEEE 
Transactions on Signal Processing. 2005,53(2): 758-767. 
Su Y T, Zhang J.Ji Z. A Source Video Identification Algorithm Based on Features in Video 
Stream. International Workshop on Education Technology and Training& International 
Workshop and International Workshop on Geosciences and Remote Sensing.2008.719-723. 
Zhang J. Maitre H. Embedding watermarking in MPEG video sequence. IEEE Fourth workshop 
on Multimedia signal Processing.2001,535-540. 
Hartung F, Girod B. Digital Watermarking of raw and compressed video. In; Proceedings. Of 
SPIE. 1996.2952:205-213. 
王 俊文 , 刘 光 杰 ,等 . 基于 模式 噪声 的 数字 视频 自 改 取证 . 东南 大 学 学 报 (自然 科学 版 ),2009， 


Os 数字 视频 内 容 安 全 261 


38CA02) 113-17. 

EIE TE SEESESO ME 利用 运动 矢量 进行 视频 纂 改 检 测 . 计算 机 研究 与 发 展 , 2009， 
46(SUPPL) : 227-233. 

熊 潇 ,黄征 , 徐 彻 ,等 . 基于 预测 残 差 检测 的 数字 视频 篡改 鉴定 . 信息 安全 与 通信 保密 ,2008， 
5(12) : 128-130. 

周 琳 娜 , 王 东 明 . 数字 图 像 取证 技术 . 北京 : 北京 邮电 大 学 出 版 社 ,2008. 

Spanos G A. Maple T B. Security for real-time MPEG compressed video in distributed 
multimedia applicatior. Computers and commurnication, 1996. 

Changgui Shi, Bharat Bhargava. A fast MPEG Video encryption algorithm. In: Proceedings of 
the 6th ACM international Multimedia Conference. 1998; 81-88. 

Tang L. Methods for encryptior and decryptior MPEG Video data efficiently. In; Proceedings of 
the 4th ACM International Multimedia Conference. 1996; 219-230. 

苏 育 挺 , 张 承 乾 . 一 种 DCT 域 视频 信息 隐藏 分 析 算 法 . 哈尔滨 工业 大 学 学 报 . 2006. 

徐 俊 瑜 . 数字 视频 被 动 取证 技术 研究 . 天 津 大 学 硕士 学 位 论文 ,2010. 

张 承 乾 . 视频 信息 隐藏 分 析 研究 . 天 津 大 学 博士 论文 ,2008. 

Simnrons G J. The prisoners’ Problem and the Subliminal Channel. In; Proceedings of 
CRYPTO'1983, 1984; 51-67. 


本 章 学 习 目 标 

随 着 信息 化 建设 的 深入 ,数据 库 在 各 种 信息 系统 中 得 到 了 广泛 的 应 用 ,其 安全 问题 
也 日 益 突出 。 本 章 将 介绍 数据 库 的 基本 特性 、 数 据 库 所 面临 的 安全 威胁 ,以 及 当前 的 数 
据 库 安全 技术 。 具 体 包括 数据 库 的 机 密 性 、 完 整 性 .访问 控制 以 及 安全 管理 等 方面 的 
知识 。 

通过 本 章 的 学 习 , 应 掌握 以 下 内 容 : 

(1) 数据 库 安全 的 基本 概念 以 及 数据 库 面临 的 安全 威胁 。 

(2) 数据 库 访问 控制 技术 。 

(3) 数据 库 水 印 技术 。 

(4) 数据 库 安全 管理 : 数据 库 加 密 、 审 计 等 。 


数据 库 和 数据 库 技术 在 不 断 增长 的 计算 机 应 用 中 起 着 越 来 越 大 的 作用 。 在 计算 机 
应 用 的 各 个 领域 ,数据 库 都 起 着 至 关 重 要 的 作用 。 如 果 数 据 库 的 安全 没 能 得 到 有 效 保 
护 , 计 算 机 和 网 络 应 用 的 深度 和 广度 都 将 大 受 影 响 。 对 于 数据 库 的 用 户 来 说 ,机 密 性 和 
完整 性 都 非常 重要 。 

当前 ,数据 库 安 全 问题 已 开始 引起 人 们 的 关注 。 虽 然 已 经 开发 了 一 些 数据 库 安 全 技 
术 , 但 仍然 还 存在 一 些 无 法 控制 的 安全 隐患 。 本 章 将 从 数据 库 的 基本 概念 人 手 , 介 绍 数 
据 库 的 相关 特性 ,分 析 当 前 数据 库 所 面临 的 安全 问题 ,对 常见 的 数据 库 安 全 技术 ,如 数据 
库 安全 访问 控制 技术 .数据库 数字 水 印 技术 ,数据 库 加 密 技术 以 及 数据 库 安全 管理 技术 
进行 介绍 。 


10.1 数据 库 安全 基本 概念 


10.1.1 数据 库 的 基本 概念 


数据 库 (DataBase, DB) 是 在 数据 库 管理 系统 (DataBase Management System. 
DBMS) 的 集中 控制 下 , 按 一 定 的 组 织 方式 存储 起 来 的 \ 相 互 关联 的 数据 集合 ,能 为 多 个 用 
户 共 享 , 且 具有 数据 元 余 度 小 、 独 立 性 和 安全 性 高 等 特点 。 数 据 库 中 的 数据 独立 于 使 用 
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数据 的 程序 ,对 数据 的 增加 、 删 除 \ 修 改 和 检索 等 操作 都 由 DBMS 进行 统一 管理 和 实现 。 
目前 最 常用 的 数据 库 是 关系 型 数据 库 。 随 着 数据 库 技术 的 发 展 ,涌现 出 了 许多 新 型 数据 
库 , 例 如 分 布 式 数 据 库 、 多 媒体 数据 库 和 数据 仓库 等 。 


数据 库 系统 主要 包括 两 个 核心 ,一 个 是 按 一 定 规 BUBESURURHE 
则 组 织 的 数据 集合 本 身 ; 另 一 个 是 DBMS, 它 为 用 户 提 

M 数据 库 管理 系统 
供 访问 接口 并 且 具 有 数据 库 的 管理 、 维 护 功能 ,保证 数 : 
据 库 的 安全 性 可靠 性 和 完整 性 。 数 据 库 支撑 示意 图 如 EAR 


图 10-1 所 示 。 f 
数据 库 除 了 具有 多 用 户 、 高 可 靠 性 、 频 繁 的 更 新 和 普通 文件 系统 数据 库 文件 
数据 文件 大 等 特性 外 ,还 具有 数据 共享 ,减少 数据 元 余 、 f í) 
数据 的 一 致 性 .数据 的 独立 性 .数据 的 保密 性 ` 数 据 的 完 计算 机 硬件 
整 性 、 并 发 控制 和 故障 恢复 等 技术 特性 。 图 10-1 数据 库 支撑 示意 图 
数据 库 文件 由 记录 (record) 组 成 ,每 个 记录 包含 了 
一 组 相关 的 数据 。 如 表 10-1 所 示 ,在 一 个 名 字 地 址 文件 中 ,每 个 记录 由 名 字 和 地 址 数据 
组 成 。 每 个 记录 都 包含 域 (field) 或 元 素 (element) , 即 它们 的 基本 数据 项 。 


表 10-1 一 个 数据 库 的 实例 


ADAMS 212 Market St. Columbus OH 43210 
BENCHLY 501 Union St. Chicago IL 60603 
CARTER 411 Elm St. Columbus OH 43210 


数据 库 的 逻辑 结构 称 为 模式 (schema)。 一 名 特殊 的 用 户 可 能 只 允许 访问 数据 库 的 
一 部 分 , 称 之 为 子 模 式 (subschema) 。 通 过 模式 或 子 模式 ,数据库 可 以 只 显示 用 户 想 看 到 
或 需要 看 到 的 元 素 。 

数据 库 的 规则 要 求 以 列 名 识别 列 , 列 名 也 称 为 数据 库 的 属性 (attribute) , 列 的 集合 构 
成 了 一 个 关系 (relation)。 关 系 描述 了 有 关 数 据 值 的 簇 (cluster) ,大 多 数 来 源 于 对 人 类 关 
系 的 描述 。 

用 户 通过 使 用 DBMS 的 命令 与 数据 库 管理 器 交互 ,这 些 命令 有 : 检索 、 修 改 、 增 加 或 
删除 数据 库 中 的 域 和 记录 。 


10.1.2 常用 数据 库 系 统 与 SQL 语言 


1. 常用 的 数据 库 系统 


常用 的 数据 库 系统 包括 DB2 Oracle, Informix, Sybase, SQL Server, PostgreSQL 和 
mySQL 等 。 

1) DB2 

IBM 于 1997 年 完成 了 System R 系统 的 原型 ,1980 年 开始 提供 集成 的 数据 库 服务 
器 一 一 System/38 ,随后 是 SQL/DS for VSE 和 VM, 其 初始 版 本 与 System R 研究 原型 
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密切 相关 ,DB2 for MVSV1 fr 1983 年 推出 。 该 版 本 的 目标 是 提供 这 一 新 方案 所 承诺 的 
简单 性 ,数据 不 相关 性 和 用 户 生 产 率 。1988 年 推出 的 DB2 for MVS 提供 了 强大 的 在 线 
事务 处 理 (OLTP) 支 持 ,1989 年 和 1993 年 分 别 以 远程 工作 单元 和 分 布 式 工作 单元 实现 
了 分 布 式 数据 库 支持 。 最 近 推 出 的 DB2 Universal Database 6. 1 则 是 通用 数据 库 的 典 
范 , 是 第 一 个 具备 网 上 功能 的 多 媒体 关系 数据 库 管理 系统 ,支持 包括 Linux 在 内 的 一 系 
列 平台 。 

2) Oracle 

Oracle 公司 前 身 为 SDL 公司 ,由 Larry Ellison 和 另 两 个 编程 人 员 在 1977 创办 。 
1979 年 ,Oracle 公司 引入 了 第 一 个 商用 SQL 关系 数据 库 管 理 系统 。Oracle 公司 是 最 早 
开发 关系 数据 库 的 厂商 之 一 ,其 产品 支持 最 广泛 的 操作 系统 平台 。 目 前 Oracle 关系 数据 
库 产品 的 市 场 占有 率 名 列 前 茅 。 

3) Informix 

Informix 公司 于 1980 年 成 立 ,目的 是 为 UNIX 等 开放 操作 系统 提供 专业 的 关系 型 
数据 库 产品 。 公 司 的 名 称 Informix 便 是 取 自 Information 和 UNIX 的 结合 。Informix 第 
一 个 真正 支持 SQL 语言 的 关系 数据 库 产 品 是 Informix SE (StandardEngine ) 。 
InformixSE 是 在 当时 的 微机 UNIX 环境 下 主要 的 数据 库 产品 。 它 也 是 第 一 个 被 移植 到 
Linux 上 的 商业 数据 库 产品 。 

4) Sybase 

Sybase 公司 成 立 于 1984 年 ,公司 名 称 Sybase 取 自 system 和 database 相 结合 的 含 
义 。Sybase 公司 的 创始 人 之 一 Bob Epstein 是 Ingres 大 学 版 (与 System/R 同时 期 的 关 
系数 据 库 模型 产品 ) 的 主要 设计 人 员 。 公 司 的 第 一 个 关系 数据 库 产品 是 1987 年 5 月 推 
出 的 Sybase SQL Server 1.0, Sybase 首先 提出 Client/Server 数据 库 体系 结构 的 思想 ， 
并 率先 在 Sybase SQL Server 中 实现 。 

5) SQL Server 

1987 年 ,微软 公司 和 IBM 公司 合作 开发 完成 OS/2, IBM 在 其 销售 的 OS/2 
ExtendedEdition 系统 中 绑 定 了 OS/2Database Manager, 而 微软 产品 线 中 尚 缺 少数 据 库 
产品 。 为 此 ,微软 将 目光 投向 Sybase, 同 Sybase 签订 了 合作 协议 ,使 用 Sybase 的 技术 开 
发 基于 OS/2 平台 的 关系 型 数据 库 。1989 年 ,微软 发 布 了 SQL Server 1.0 版 。 

6) PostgreSQL 

PostgreSQL 是 一 种 特性 非常 齐全 的 自由 软件 的 对 象 一 一 关系 性 数据 库 管理 系统 
CORDBMS) , 它 的 很 多 特性 是 当今 许多 商业 数据 库 的 前 身 。PostgreSQL 最 早 开始 于 
BSD 的 Ingres MH, PostgreSQL 的 特性 覆盖 了 SQL-2/SQL-92 和 SQL-3。 首 先 , 它 包 
括 了 可 以 说 是 目前 世界 上 最 丰富 的 数据 类 型 的 支持 ;其 次 ,目前 PostgreSQL 是 唯一 支持 
事务 、 子 查询 ,多 版 本 并 行 控 制 系统 、 数 据 完整 性 检查 等 特性 的 唯一 的 一 种 自由 软件 的 数 
据 库 管理 系统 。 

7) MySQL 

MySQL 是 一 个 小 型 关系 型 数据 库 管 理 系 统 , 开 发 者 为 瑞典 MySQL AB 公司 。 在 
2008 年 1 月 被 Sun 公司 收购 。 目 前 MySQL 被 广泛 地 应 用 在 Internet 上 的 中 小 型 网 站 
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中 。 由 于 其 体积 小 .速度 快 ` 总 体 拥有 成 本 低 , 尤 其 是 开放 源码 这 一 特点 ,许多 中 小 型 网 
站 为 了 降低 网 站 总 体 拥 有 成 本 而 选择 了 MySQL 作为 网 站 数据 库 。 


2. SQL 语言 


SQL 是 Structured Query Language( 结 构 化 查询 语言 ) 的 简写 。 是 一 种 高 级 的 非 过 
程 化 编程 语言 ,允许 用 户 在 高 层 数据 结构 上 工作 。 它 不 要 求 用 户 指定 对 数据 的 存放 方 
法 ,也 不 需要 用 户 了 解 具体 的 数据 存放 方式 ,所 以 具有 完全 不 同 底层 结构 的 不 同 数据 库 
系统 ,可 以 使 用 相同 的 SQL 语言 作为 数据 输入 与 管理 的 接口 。 它 以 记录 集合 作为 操作 
对 象 , 所 有 SQL 语句 接受 集合 作为 输入 ,返回 集合 作为 输出 ,这 种 集合 特性 允许 一 条 
SQL 语句 的 输出 作为 另 一 条 SQL 语句 的 输入 ,所 以 SQL 语句 可 以 做 套 , 这 使 其 具有 极 
大 的 灵活 性 和 强大 的 功能 ,在 多 数 情况 下 ,在 其 他 语言 中 需要 一 大 段 程序 实现 的 功能 只 
需要 一 个 SQL 语句 就 可 以 达到 目的 ,这 也 意味 着 用 SQL 语言 可 以 写 出 非常 复杂 的 语句 。 

SQL 最 早 是 IBM 的 圣 约 瑟 研究 实验 室 为 其 关系 数据 库 管 理 系 统 SYSTEM R 开发 
的 一 种 查询 语言 , 它 的 前 身 是 SQUARE 语言 。SQL 语言 结构 简洁 ,功能 强大 ,简单 易 
学 ,所 以 自从 IBM 公司 1981 年 推出 以 来 ,SQL 语言 得 到 了 广泛 的 应 用 。 如 今 无 论 是 像 
Oracle, Sybase, Informix, SQL Server 这 些 大 型 的 数据 库 管理 系统 ,还 是 像 Visual 
Foxpro、PowerBuilder 这 些 PC 上 常用 的 数据 库 开发 系统 ,都 支持 SQL 语言 作为 查询 
语言 。 

1992 年 ,ISO 和 IEC 发布 了 SQL 国际 标准 , 称 为 SQL-92。ANSI 随 之 发 布 的 相应 
标准 是 ANSI SQL-92。ANSI SQL-92 有 时 被 称 为 ANSI SQL。 尽 管 不 同 的 关系 数据 库 
使 用 的 SQL 版 本 有 一 些 差异 ,但 大 多 数 都 遵循 ANSI SQL 标准 。SQL Server 使 用 
ANSI SQL-92 的 扩展 集 , 称 为 T-SQL ,其 遵循 ANSI 制定 的 SQL-92 标准 。 

SQL 语言 包含 4 个 部 分 : 

CD 数据 定义 语言 (DDL) 用 于 定义 和 管理 对 象 。 例 如 ,CREATE、DROP、ALTER 
等 语句 。 

(2) 数据 操作 语言 CDML) 用 于 操作 数据 库 对 象 所 包含 的 数据 。 例 如 ,INSERT( 插 
人)、UPDATE( 修 改 ) .DELETE( 删 除 ) 等 语句 。 

(3) 数据 查询 语言 (DQL) 用 于 数据 库 的 查询 。 例 如 ,SELECT 请 句 。 

(4) 数据 控制 语言 (DCL) 用 于 控制 用 户 对 数据 库 对 象 操作 的 权限 。 例 如 ,GRANT、 
REVOKE,COMMIT, ROLLBACK 等 语句 。 


10.1.3 数据 库 的 数据 特点 


与 多 媒体 数据 相 比 ,关系 数据 库 中 的 关系 数据 的 主要 区 别 在 于 : 

(1) 多 媒体 数据 对 象 是 由 大 量 的 位 组 成 的 ,并 且 许 多 位 是 元 余 的 。 关 系数 据 库 则 是 
许多 独立 的 元 组 组 成 ,每 个 元 组 代表 一 个 单独 的 对 象 , 数 据 间 一 般 存在 依赖 关系 ,难以 
找到 可 辨认 的 元 余 空间 。 

(2) 多 媒体 数据 对 象 各 个 点 之 间 主 要 存在 空间 上 的 有 序 关 系 。 而 组 成 关系 数据 库 的 
元 组 之 间 以 及 元 组 的 属性 值 集合 之 间 是 无 序 的 。 
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(3) 多 媒体 数据 对 象 某 个 部 分 的 删除 或 替换 ,很 容易 引起 知觉 上 的 变化 ,而 关系 数据 
库 却 可 以 简单 地 去 掉 一 些 元 组 或 者 用 其 他 类 似 的 关系 数据 中 的 元 组 来 代替 而 不 易 被 发 
觉 。 这 使 得 数据 库 水 印 易于 被 攻击 且 难 以 发 现 。 

(4) 数据 库 数 据 主 要 被 机 器 程序 读 取 和 处 理 , 无 法 像 多 媒体 数据 那样 基于 人 类 视觉 
模型 (HVS) 或 听觉 模型 (HAS) 来 实现 数字 水 印 的 隐蔽 嵌入 。 

(5) 静态 的 多 媒体 数据 很 少 进行 更 新 ,而 数据 库 一 般 更 新 频繁 。 


10.1.4 数据 库 安全 概述 


数据 库 安全 是 指数 据 库 的 任何 部 分 都 不 允许 受到 恶意 侵害 或 未 经 授权 的 存 取 或 修 
改 , 以 保证 数据 的 安全 可 靠 和 正确 有 效 。 

随 着 计算 机 资源 共享 和 网 络 技术 应 用 的 日 益 广泛 , 越 来 越 多 的 数据 库 需 要 通过 网 络 
进行 存储 和 发 布 。 对 于 一 些 重要 的 部 门 ` 有 价值 的 数据 ,如 网 上 银行 .购物 .证券 等 部 门 
的 用 户 资料 数据 库 , 这 些 数 据 往往 蕴涵 巨大 的 社会 价值 与 经 济 价值 ,因而 会 经 常 成 为 不 
法 分 子 感 兴趣 的 目标 , 极 易 遭 到 攻击 和 破坏 ,因此 需要 保护 数据 的 安全 性 和 完整 性 。 此 
外 ,一 些 数据 库 应 用 需要 将 数据 库 产品 出 售 给 客户 (如 地 理 信息 系统 中 一 般 就 包含 价格 
不 菲 的 空间 数据 库 ) ,一 些 数据 库 业 务 ( 如 数据 挖掘 等 ) 需 要 向 合作 伙伴 提供 完整 的 数据 ， 
这 些 都 需要 严格 的 数据 库 版 权 保护 措施 。 数 据 库 版 权 保护 是 数据 库 安 全 的 另 一 项 重要 
作用 。 

因此 ,数据 库 安全 主要 包括 三 个 方面 的 内 容 : 保密 性 、 完 整 性 和 可 用 性 。 

。 保密 性 : 不 允许 未 经 授权 的 用 户 存 取 信息 。 

。 完整 性 : 只 允许 被 授权 的 用 户 修改 数据 。 

。 可用性: 不 应 拒绝 已 授权 的 用 户 对 数据 进行 存 取 。 

关于 数据 库 安全 ,以 C. P. Pfleeger 在 Security in Computing Database Security 论 
文中 的 定义 最 具有 代表 性 。 该 定义 从 以 下 方面 对 数据 库 安全 进行 了 描述 : 

CO 物理 数据 库 的 完整 性 。 数 据 库 中 的 数据 不 被 各 种 自然 的 或 物理 的 问题 所 破坏 。 
如 水 灾 、 火 灾 、 电 力 问题 造成 的 硬件 故障 或 设备 故障 等 ,会 导致 数据 库 的 损坏 和 丢失 。 

(2) 可 信 计 算 基 。 可 信 计 算 基 (Trusted Comptuing Base. TCB) 是 实现 数据 库 安全 
的 所 有 实施 策略 与 机 制 的 集合 。 它 是 实施 、 检 查 、 监 督 数 据 库 安全 的 一 种 抽象 机 构 。 

(3) 逻辑 数据 库 的 完整 性 。 对 数据 库 结构 的 保护 ,如 对 其 中 一 个 字段 的 修改 不 应 该 
破坏 其 他 字段 。 人 逻辑 上 的 威胁 主要 是 指 对 信息 未 被 授权 的 存 取 , 可 以 分 为 三 类 : 信息 汇 
露 , 包 括 直 接 和 非 直 接 ( 通 过 推理 ) 地 对 保护 数据 的 存 取 ;非法 的 数据 修改 ,由 操作 人 员 的 
失误 或 非法 用 户 的 故意 修改 引起 ;拒绝 服务 ,通过 独占 系统 资源 导致 其 他 用 户 不 能 访问 
数据 库 。 为 了 消除 逻辑 上 的 威胁 ,DBMS 必须 提供 可 靠 的 安全 策略 ,以 确保 数据 库 的 安 
全 性 。 

(4) 元 素 安 全 性 。 存 储 在 数据 库 中 的 每 个 元 素 都 是 正确 的 。 当 数据 库 被 使 用 时 ,应 
确保 合法 用 户 得 到 正确 的 数据 。 数 据 库 不 仅 储存 数据 ,还 要 为 使 用 者 提供 信息 。 应 该 确 
保 合 法 用 户 在 一 定 规则 的 控制 和 约束 下 使 用 数据 库 , 同 时 应 当 防 止 人 侵 者 或 非 授权 者 非 
法 访问 数据 库 。 
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(5) 可 审计 性 。 可 以 追踪 存 取 和 修改 数据 库 元 素 的 用 户 ,同时 能 对 各 种 安全 性 事件 
进行 检查 、 跟 踪 和 记录 。 它 提供 了 信息 系统 安全 事件 的 证 明和 依据 。 

(6) 访问 控制 。 确 保 只 有 授权 的 用 户 才能 访问 数据 库 , 这 样 不 同 的 用 户 被 限制 在 不 
同 的 访问 方式 。 

(7) 身份 验证 。 不 管 是 审计 追踪 或 者 是 对 某 一 数据 库 的 访问 都 必须 要 经 过 严格 的 身 
份 验证 。 它 是 一 种 鉴别 某 一 实体 身份 真 伪 性 的 技术 ,是 防止 冒充 攻击 的 重要 手段 。 

(8) 可 用 性 。 可 用 性 是 指 对 授权 的 用 户 可 以 访问 数据 库 中 的 授权 数据 和 一 般 数 据 的 
能 力 。DBMS 既是 程序 也 是 系统 ,用 户 通常 把 DBMS 看 做 是 用 来 执行 特殊 任务 的 基本 工 
具 。 但 是 , 当 系 统 不 可 用 时 (忙于 为 其 他 用 户 服 务 、 正 被 维护 或 更 新 时 ) ,用 户 会 清楚 地 意 
识 到 此 时 DBMS 是 不 可 用 的 。 例 如 ,两 个 用 户 同 时 要 求 访问 某 一 个 记录 时 ,DBMS 必须 
做 出 决策 : 哪 一 个 用 户 暂 时 不 能 访问 该 记录 。 有 时 ,DBMS 必须 限制 访问 某 些 不 受 保护 
的 数据 以 免 泄露 需要 保护 的 数据 ,而 不 管用 户 是 否 愿意 。 

(9) 数据 库 中 的 数据 加 密 。 加 密 是 信息 安全 中 的 一 种 传统 方法 ,在 数据 库 中 也 不 例 
外 ,但 是 由 于 数据 库 中 数据 结构 的 特殊 性 以 及 数据 操纵 的 要 求 ,使 得 对 数据 库 中 数据 加 
密 有 别 于 其 他 信息 安全 领域 中 的 加 密 。 此 外 ,对 数据 库 中 数据 进行 加 密 后 会 对 数据 操纵 
与 控制 造成 一 定 的 影响 。 因 此 ,一 般 对 数据 库 的 加 密 要 慎重 行事 。 

(10) 数据 库 安全 的 三 权 分 立 模式 。 在 数据 库 管理 系统 中 , DBA (Database 
Administrator) 具 有 至 高 的 权力 ,但 是 为 保证 数据 的 安全 ,需要 将 DBA 的 权力 作 重 新 调 
整 , 这 就 是 所 谓 的 三 权 分 立 模式 ,在 该 模式 中 DBMS 由 三 部 分 高 级 别人 员 管 理 : 

(D DBA: 具有 管理 DBMS 的 最 高 权力 ,但 有 关 数 据 安 全 的 管理 权力 除外 。 

Q) SA(Secure Administrator): 即 “ 安 全 管理 员 ”, 它 具有 管理 数据 库 中 数据 安全 的 
最 高 权力 ,但 有 关 和 审计 管理 权力 除外 。 

@ AT(Auditor ; 即 * 审 计 员 ”, 由 于 审计 在 数据 库 安 全 中 的 特殊 作用 , 须 设置 专门 
的 审计 员 以 负责 数据 库 安 全 中 的 审计 管理 工作 。 

数据 库 安 全 负责 信息 存 取 安 全 中 数据 库 这 个 层次 的 安全 ,具体 来 说 ,就 是 保证 用 户 
正确 地 访问 数据 库 , 防 止 非法 访问 数据 库 。 为 实现 数据 库 的 存 取 安全 ,需要 解决 的 技术 
问题 主要 包括 : 

CD 存 取 控制 模型 : 为 保证 数据 库存 取 的 安全 需 对 数据 库 访 问 建立 一 定 的 控制 机 制 ， 
称 为 “数据 库 的 存 取 控 制 ”, 而 这 种 存 取 控制 的 抽象 结构 称 为 “ 存 取 控 制 模型 ”。 目 前 有 多 
种 存 取 控制 模型 能 适应 多 种 不 同 的 应 用 ,但 每 种 模型 也 均 存在 一 些 不 足 , 因 此 需要 研究 
新 的 存 取 控制 模型 适应 不 同 需求 。 

@ 语义 推理 技术 : 由 于 数据 库 中 数据 之 间 往 往 存在 着 语义 上 的 关联 ,因此 在 某 些 情 
况 下 ,一 些 用 户 可 以 从 它 有 权 访 问 的 数据 中 通过 语义 关联 推导 出 它 无 权 访问 的 数据 来 ， 
对 该 问题 的 研究 可 以 找 出 数据 库 中 的 推理 通道 ,它们 是 以 隐蔽 形式 出 现 的 也 可 称 为 隐蔽 
通道 。 找 出 推理 通道 的 目的 是 为 了 堵塞 这 些 通道 以 防止 非法 访问 数据 。 

@ 数据 库 中 数据 加 密 技 术 : 数据 加 密 一 直 是 信息 安全 的 一 项 重要 技术 ,对 数据 库 安 
全 也 是 如 此 ,在 数据 库 领域 中 由 于 其 数据 的 特殊 性 ,使 得 一 般 数据 的 加 密 存在 不 少 困难 ， 
因此 需要 研究 数据 库 中 数据 加 密 的 原理 与 方法 。 
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由 上 述 内 容 可 知 ,数据 库 安 全 的 目标 是 保证 对 数据 的 正确 访问 与 防止 对 数据 的 非法 
访问 ,数据 库 安全 包含 的 内 容 为 对 数据 库 中 存 取 控制 模型 .语义 推理 技术 数据 加 密 技术 
以 及 数据 库 标 准 规范 的 制定 。 


10.1.5 数据 库 安全 标准 


目前 ,国际 上 及 我 国 均 颁 布 了 有 关 数 据 库 安全 的 等 级 标准 ,最 早 的 标准 是 美国 国防 
部 (DOD) 在 1985 年 颂 布 的 “可 信 计 算 机 系统 评估 标准 ”(Trusted Computer System 
Evaluation Criteria, TCSEC) 。1996 年 国际 标准 化 组 织 ISO 颁布 了 “信息 安全 技术 一 一 
信息 技术 安全 性 评估 准则 ”(Information Technology Security Techniques—— Evaluation 
Criteria for IT security) ,简称 CC 标准 。 我 国政 府 于 1999 年 颁布 了“ 计算 机 信息 系统 评 


组 7 级 ,我 国标 准则 划分 为 五 个 级 别 。 
1. TCSEC(TDI) $R HÈ 


TCSEC(TDD 标 准 是 目前 常用 的 标准 ,在 此 标准 中 将 数据 库 安全 分 为 4 类 7 级 。 

COD D 级 标准 。 为 无 安全 保护 的 系统 。 

(2) C1 级 标准 。 满 足 该 级 别 的 系统 必须 具有 如 下 功能 : 

(D 主体 、 客 体 及 主 、 客 分 离 。 

@ 身份 标识 与 鉴别 。 

@ 数据 完整 性 。 

@ 自主 访问 控制 。 

其 核心 是 自主 访问 控制 。C1 级 安全 适合 于 单机 工作 方式 ,目前 国内 使 用 的 系统 大 
都 符合 此 标准 。 

(3) C2 级 标准 。 满 足 该 级 别 的 系统 必须 具有 如 下 功能 ， 

CD 满足 C1 级 标准 的 全 部 功能 。 

Q 审计 。 

CD Bl 级 标准 。 满 足 该 级 别 的 系统 必须 具有 如 下 功能 : 

CD 满足 C2 级 标准 全 部 功能 。 

© 强制 访问 控制 。 

(5) B2 级 标准 。 满 足 该 级 别 标准 的 系统 必须 具有 如 下 功能 : 

CD 满足 Bl 级 标准 全 部 功能 。 

© 隐蔽 通道 。 

@ 数据 库 安 全 的 形式 化 。 

一 个 数据 库 系统 凡是 符合 Bl 级 标准 的 都 称 为 安全 数据 库 系 统 (secure DB system) 
或 可 信 数 据 库 系 统 (trusted DB system) 。 目 前 我 国 国内 所 使 用 的 系统 基本 不 是 安全 数 
据 库 系统 。 

(6) B3 级 标准 。 满 足 该 级 别 的 系统 必须 具有 如 下 功能 : 

(D 满足 B2 级 标准 的 全 部 功能 ; 

Q 访问 监控 器 。 
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(7) A 级 标准 。 满 足 该 级 别 的 系统 必须 具有 如 下 功能 : 

CD 满足 B3 级 标准 的 全 部 功能 ; 

OQ 较 高 的 形式 化 要 求 。 

此 级 为 安全 之 最 高 等 级 ,应 具有 完善 的 形式 化 要 求 , 目 前 尚 无 法 实现 。 


2. 我 国标 准 与 TCSEC(TDD 标 准 对 比 


我 国 国家 标准 于 1999 年 颁布 ,为 与 国际 接轨 其 基本 结构 与 TCSEC(CTDI) 标 准 相似 。 
我 国标 准 5 级 ,从 第 1 级 到 第 5 级 基本 上 与 TCSECCTDD iR CCC1. C22 2€. B 2X 
(B1,B2,B3) 一 致 ,我 国标 准 与 TCSECCTDI) 标 准 比 较 如 表 10-2 所 示 。 


表 10-2 TCSEC 标准 与 我 国标 准 的 比较 


TCSEC 标准 我 国标 准 TCSEC 标准 我 国标 准 

D 级 标准 无 B2 级 标准 第 4 级 : 结构 化 保护 级 
C1 级 标准 第 1 级 : 用 户 自主 保护 级 B3 级 标准 第 5 级 :访问 验证 保护 级 
C2 级 标准 第 2 级 : 系统 审计 保护 级 A 级 标准 无 

B1 级 标准 第 3 级 : 安全 标记 保护 级 


10.2 数据 库 面临 的 安全 威胁 


随 着 数据 库 应 用 越 来 越 广泛 ,其 安全 隐患 也 越 来 越 多 ,当前 数据 库 主要 存在 十 类 安 
全 威胁 。 


1. 权限 滥用 


用 户 ( 或 应 用 程序 ) 应 只 能 在 自己 的 工作 职责 范围 内 对 相应 的 数据 进行 访问 ,一 旦 被 
授予 超出 了 其 工作 职能 所 需 的 数据 库 访问 权限 时 ,这 些 权 限 就 可 能 被 恶意 滥用 。 例 如 ， 
一 个 银行 职员 在 工作 中 只 需要 能 够 更 改 客户 的 联系 信息 ,不 过 他 可 能 会 利用 过 高 的 数据 
库 更 新 权限 来 更 改 客户 的 存款 金额 。 


2. 合法 权 的 滥用 


合法 的 数据 库 权 限 被 用 于 未 经 授权 的 目的 。 假 设 一 个 医务 人 员 拥 有 可 以 通过 Web 
应 用 程序 查看 某 个 患者 病历 的 权限 。 通 常情 况 下 ,该 Web 应 用 程序 的 结构 限制 用 户 只 
能 查看 单个 患者 的 病史 ,但 是 ,恶意 的 医务 人 员 可 以 通过 使 用 其 他 客户 端 ( 如 Excel) 连 接 
到 数据 库 来 规避 这 些 限制 。 通 过 使 用 Excel 以 及 合法 的 登录 凭据 ,该 医务 人 员 就 可 以 检 
索 和 保存 所 有 患者 的 病历 。 这 种 私自 复制 患者 病历 数据 库 的 副本 的 做 法 是 不 符合 任何 
医疗 组 织 的 患者 数据 保护 策略 的 。 


3. 权限 设 定 
任何 系统 都 有 可 能 存在 漏洞 ,数据 库 管理 系统 也 是 如 此 。 攻 击 者 可 以 利用 数据 库 平 
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台 软 件 的 漏洞 将 普通 用 户 的 权限 转换 为 管理 员 权 限 ,达到 不 可 告 人 的 目的 。 漏 洞 可 以 在 
存储 过 程 、 内 置 函数 、 协 议 实现 甚 至 是 SQL 语句 中 找到 。 例 如 ,一 个 金融 机 构 的 软件 开 
发 人 员 利 用 有 漏洞 的 函数 来 获得 数据 库 管 理 权限 ,恶意 的 开发 人 员 可 以 使 用 管理 权限 禁 
用 审计 机 制 、 开 设 伪造 的 账户 以 及 转账 等 。 


4. 平台 漏洞 


底层 操作 系统 (Windows 2000, UNIX 等 ) 中 的 漏洞 和 安装 在 数据 库 服 务 器 上 的 其 他 
服务 中 的 漏洞 可 能 会 导致 未 经 授权 的 访问 、 数 据 破 坏 或 拒绝 服务 。 例 如 性 冲击 波 病毒 ” 
就 是 利用 了 Windows 2000 的 远程 过 程 调用 协议 漏洞 为 拒绝 服务 攻击 创造 条 件 。 


5. SQL 注入 


SQL 注入 攻击 主要 是 由 于 程序 设计 中 忽略 了 SQL 请 句 检 查 引 起 的 。 在 SQL 注入 
攻击 中 ,入 侵 者 通常 将 未 经 授权 的 数据 库 语 句 插入 (或 注入”) 到 有 漏洞 的 SQL 数据 信 
道中 。 通 常情 况 下 ,攻击 所 针对 的 数据 信道 包括 存储 过 程 和 Web 应 用 程序 输入 参数 ,这 
些 注入 的 语句 被 传递 到 数据 库 中 并 在 数据 库 中 执行 。 使 用 SQL 注入 ,攻击 者 可 以 不 受 
限制 地 访问 整个 数据 库 。 在 实际 应 用 中 ,可 以 将 以 下 三 个 技术 结合 使 用 来 抵御 SQL 注 
As 入 侵 防御 系统 (IPS) .查询 级 别 访问 控制 和 事件 相关 。 


6. 审计 记录 缺陷 


自动 记录 所 有 敏感 的 和 /或 异常 的 数据 库 事 务 应 该 是 所 有 数据 库 部 署 基础 的 一 部 
分 。 如 果 数 据 库 审计 策略 不 足 , 则 数据 库 将 在 很 多 级 别 上 面临 严重 风险 。CSDN 、 天 涯 等 
社区 的 帐号 被 泄露 后 ,数据 库 审 计 被 广泛 关注 。 


7. 拒绝 服务 


拒绝 服务 (DoS) 是 一 个 宽泛 的 攻击 类 别 , 其 基本 原理 是 攻击 时 利用 合理 的 服务 请 求 
占用 过 多 的 资源 ,导致 正常 用 户 的 访问 被 拒绝 。 可 以 通过 多 种 技巧 为 DoS 攻击 创造 条 
件 , 其 中 很 多 都 与 上 文 提 到 的 漏洞 有 关 。 例 如 ,可 以 利用 数据 库 平 台 漏 洞 来 制造 拒绝 服 
务 攻 击 ,从 而 使 服务 器 崩溃 。 其 他 常见 的 拒绝 服务 攻击 技巧 包括 数据 破坏 、 网 络 泛 洪 和 
服务 器 资源 过 载 (内 存 .CPU 等 ) 。 


8. 数据 库 通信 协议 漏洞 


数据 库 通信 协议 是 数据 库 的 客户 端 和 服务 器 端的 通信 所 遵循 的 规则 。 在 所 有 的 数 
据 库 通信 协议 中 ,发 现 了 越 来 越 多 的 安全 漏洞 。 在 两 个 最 新 的 IBM DB2 Fix Pack 中 ,七 
个 安全 修复 程序 中 有 四 个 是 针对 协议 漏洞 的 。 同 样 地 ,最 新 的 Oracle 季度 补丁 程序 所 修 
复 的 23 个 数据 库 漏洞 中 有 11 个 与 协议 有 关 。 针 对 这 些 漏洞 的 欺骗 性 活动 包括 未 经 授 
权 的 数据 访问 、 数 据 破坏 以 及 拒绝 服务 。 例 如 , SQL Slammer 2 蠕虫 就 是 利用 了 
Microsoft SQL Server 协议 中 的 漏洞 实施 拒绝 服务 攻击 。 
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9. 薄弱 的 身份 验证 方案 


薄弱 的 身份 验证 方案 可 以 使 攻击 者 窃取 或 以 其 他 方法 获得 登录 凭据 ,从 而 获取 合法 
数据 库 用 户 的 身份 。 攻 击 者 可 以 采取 多 种 策略 来 获取 凭据 。 

CD 暴力 攻击 。 攻 击 者 不 断 地 输入 用 户 名 /密码 组 合 , 直 到 找到 可 以 登录 的 一 组 。 暴 
力 过 程 可 能 是 靠 猜测 ,也 可 能 是 靠 复 杂 的 算法 来 破解 用 户 名 /密码 组 合 。 通 常 , 攻 击 者 会 
使 用 自动 化 程序 来 加 快 暴 力 攻击 的 速度 。 

(2) 社会 工程 攻击 。 攻 击 者 利用 人 天 生 容 易 相 信和 别人 的 倾向 来 获取 他 人 的 信任 ,从 
而 获得 其 登录 凭据 。 例 如 ,攻击 者 可 能 在 电话 中 伪装 成 一 名 IT 技术 经 理 , 以 “系统 维护 ” 
为 由 要 求 提 供 登 录 赁 据 。 

(3) 直接 窃取 凭据 。 攻 击 者 可 能 通过 抄写 即时 贴 上 的 内 容 或 复制 密码 文件 来 窃取 登 
录 和 凭据 ,例如 ATM 机 中 的 窃取 个 人 密码 的 装置 等 。 


10. 备份 数据 泄露 


若 没有 对 备份 数据 库存 储 介质 采取 一 定 的 安全 措施 ,对 于 攻击 者 是 毫 无 防护 的 。 在 
若干 起 著名 的 安全 破坏 活动 中 ,都 是 数据 库 备 份 磁带 和 硬盘 被 资 。 为 防止 备份 数据 暴 
露 ,所 有 数据 库 备 份 都 应 加 密 。 实 际 上 , 某 些 供应 商 已 经 建议 在 未 来 的 DBMS 产品 中 不 
支持 创建 未 加 密 的 备份 。 建 议 经 常 对 联机 的 生产 数据 库 信息 进行 加 密 , 但 是 由 于 性 能 问 
题 和 密 钥 管理 问题 ,这 一 方法 通常 是 不 现实 的 。 

解决 上 述 安全 威胁 的 方法 主要 有 : 数据 库 安全 访问 策略 数据库 水 印 技术 、 数 据 库 安 
全 管理 ,这 些 内 容 将 在 下 面 章节 中 详细 介绍 。 


10.3 数据库 安 全 访问 策略 


数据 库 得 以 安全 访问 的 重要 策略 在 于 对 各 种 访问 加 以 控制 ,从 而 达到 防止 非法 用 户 
进入 系统 及 合法 用 户 对 系统 资源 的 非法 使 用 的 目的 。 数 据 库 的 安全 控制 技术 主要 有 信 
息 流向 控制 ,推导 控制 ,访问 控制 ,其 中 访问 控制 技术 的 应 用 最 广泛 且 最 有 效 。 


10. 3.1 访问 控制 技术 


访问 控制 (access control) 是 通过 某 种 途径 显 式 地 准许 或 限制 用 户 的 访问 能 力 及 范 
;以 限制 对 关键 资源 的 访问 ,防止 非法 用 户 的 侵入 或 者 合法 用 户 的 不 慎 操 作 所 造成 的 
破坏 。 访 问 控 制 技 术 保证 了 用 户 在 对 数据 库 操作 之 前 必须 先 经 过 授权 ,这 是 数据 保护 的 
前 沿 屏障 。 数 据 库 安全 访问 技术 的 研究 内 容 主要 有 : 自主 访问 控制 ,强制 访问 控制 ,基于 
内 容 的 访问 控制 ,基于 精细 粒度 的 访问 控制 ,基于 角色 的 访问 控制 以 及 使 用 控制 等 。 除 
使 用 控制 外 ,其 他 访问 控制 技术 在 当前 的 主流 商用 数据 库 系统 中 都 已 经 得 到 了 应 用 。 

访问 控制 系统 一 般 包括 三 个 角色 , 即 主体 .客体 和 安全 访问 策略 。 其 中 主体 是 发 出 
访问 控制 . 存 取 要 求 的 主动 方 ,可 以 是 用 户 或 应 用 程序 的 进程 ;客体 是 被 调用 的 程序 或 欲 


272 


Qi osssnusua 


存 取 的 数据 ;安全 访问 策略 是 一 套数 据 库 访问 的 规则 。 
1. 自主 访问 控制 


自主 访问 控制 (Discretionary Access Control. DAC) 是 指 系统 根据 主体 是 否 具有 对 
客体 的 所 有 权 或 衍生 的 访问 权 来 决定 主体 是 否 能 访问 客体 。 当 主体 具有 某 种 访问 权 、 同 
时 又 拥有 将 该 访问 权 授予 其 他 用 户 的 权利 时 ,能 够 自行 决定 将 其 访问 权 直 接 或 间接 地 转 
授 给 其 他 主体 。 在 自主 访问 控制 中 ,系统 用 户 对 数据 信息 的 存 取 控制 主要 是 基于 对 用 户 
身份 的 鉴别 和 存 取 访问 规则 的 确定 。 当 用 户 要 执行 某 项 操作 时 ,系统 就 根据 用 户 的 请 求 
与 系统 的 授权 存 取 和 矩阵 进行 匹配 比较 ,通过 则 人 允许 该 用 户 的 请 求 ,对 其 提供 可 靠 的 数据 
存 取 方 式 , 和 否则 拒绝 该 用 户 的 任何 请 求 。DAC 的 管理 简单 灵活 ,但 在 安全 性 上 存在 漏洞 。 
如 某 个 获得 访问 权 的 主体 可 在 客体 的 所 有 者 不 允许 的 情况 下 ,将 对 客体 的 访问 权 转 授 给 
其 他 主体 。 


2. 强制 访问 控制 


强制 访问 控制 (Mandatory Access Control,MAC) 是 指 系 统 根据 主体 被 信任 的 程度 
和 客体 所 包含 信息 的 机 密 性 来 决定 主体 对 客体 的 访问 权 。 在 强制 访问 控制 下 ,数据 库 系 
统 给 所 有 主体 和 客体 分 配 了 不 同 级 别 的 安全 属性 。 无 论 数 据 如 何 复制 ,数据 和 其 安全 级 
别 是 一 个 不 可 分 的 整体 ,只 有 符合 安全 级 别 要 求 的 用 户 才 可 以 操纵 数据 。 它 禁止 了 拥有 
高 安全 级 别 的 主体 更 新 低 安 全 级 别 的 数据 对 象 , 从 而 防止 了 敏感 数据 的 泄露 ,提高 了 数 
据 的 安全 性 。 而 且 , 用 户 不 能 以 任何 方式 修改 自身 或 任何 客体 的 安全 属性 ,因此 就 无 权 
将 任何 资源 的 访问 权 赋 予 别 的 用 户 , 只 有 特定 的 系统 权限 管理 员 才 能 根据 系统 实际 的 需 
要 修改 系统 的 授权 状态 ,从 而 消除 了 DAC 中 的 安全 漏洞 。 


3. 基于 内 容 的 访问 控制 


基于 内 容 的 访问 控制 要 求 存 取 控制 取决 于 数据 的 内 容 。 目 前 , 常 被 采用 的 基于 内 容 
访问 控制 机 制 是 视图 机 制 。 进 行 存 取 权 限 控制 时 ,可 以 为 不 同 的 用 户 定义 不 同 的 视图 ， 
把 数据 对 象限 制 在 一 定 的 范围 内 ,使 机 密 数 据 不 出 现在 不 应 看 到 这 些 数据 的 用 户 视图 
上 。 这 样 通过 视图 机 制 可 以 把 要 保密 的 数据 对 无 权 存 取 的 用 户 隐藏 起 来 ,从 而 对 数据 提 
供 一 定 程度 的 安全 保护 。 


4. 基于 精细 粒度 的 访问 控制 


基于 精细 粒度 的 访问 控制 来 源 于 高 安全 级 别 的 多 级 关系 数据 库 系统 的 设计 需求 。 
此 种 数据 库 中 存放 着 安全 级 别 不 同 的 数据 ,其 中 的 安全 级 别 标记 粒度 可 以 是 关系 、 记 录 
或 属性 ,但 这 些 定义 方式 或 者 会 使 某 些 敏感 数据 的 安全 级 降低 ,或 者 会 使 某 些 非 敏 感 数 
据 的 安全 级 升 高 。 因 此 ,基于 精细 粒度 的 访问 控制 被 提出 。 根 据 控制 对 象 的 粗细 程度 ， 
访问 控制 可 分 为 粗 粒 度 和 细 粒 度 两 种 ,通常 把 规定 访问 整个 数据 库 表 或 由 基本 表 导 出 的 
视图 的 某 个 层 称 为 粗 粒 度 的 访问 控制 ,而 细 粒 度 控制 则 是 把 安全 控制 细 化 到 数据 库 的 行 
级 或 列 级 。 朴 素 的 精细 粒度 权限 解决 方案 是 为 每 个 需 保护 的 元 组 定义 一 张 视图 ;另外 一 
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种 解决 方法 是 采用 虚拟 隐私 数据 库 。 
5. 基于 角色 的 访问 控制 


基于 角色 的 访问 控制 (Role-Based Access Control, RBAC) 提 供 了 解决 具有 大 量 用 
户 .数据库 客体 和 访问 权限 系统 中 的 授权 管理 问题 。RBAC 涉及 用 户 、 角 色 ,访问 权 以 及 
会 话 等 主要 概念 ,如 图 10-2 所 示 。 


图 10-2 RBAC96 模型 


角色 是 一 组 用 户 和 一 组 操作 权限 的 集合 ,角色 中 的 用 户 可 以 执行 这 些 操 作 权限 。 在 
数据 库 中 创建 一 个 新 用 户 时 ,需要 为 其 指定 角色 。 用 户 与 角色 间 、 角 色 与 访问 许可 权 间 
都 是 多 对 多 的 关系 。 当 用 户 登录 到 RBAC 系统 时 ,会 有 一 个 会 话 ,此 会 话 可 能 激活 的 角 
色 是 该 用 户 全 部 角色 的 一 个 子 集 。 角 色 可 以 根据 实际 需要 生成 或 取消 ,用 户 也 可 以 根据 
需要 动态 激活 拥有 的 角色 ,这样 就 避免 了 用 户 无 意 间 对 系统 安全 造成 的 危害 。 由 于 数据 库 
应 用 层 角 色 的 逻辑 意义 更 为 明显 和 直接 ,因此 ,RBAC 非常 适用 于 数据 库 应 用 层 安全 模型 。 


6. 基于 使 用 的 访问 控制 

在 传统 的 访问 控制 模型 DAC, MAC 和 RBAC 中 ,授权 发 生 在 访问 前 ,而 在 整个 访问 
期 间 可 能 需要 对 相对 长 期 的 访问 或 者 访问 权限 进行 立即 回收 ,为 了 解决 上 述 问 题 ,使 用 
控制 模型 被 提出 。 使 用 控制 模型 (Usage Control, UCON) 由 主体 、 主 体 属性 、 客 体 、 客 体 


属性 、 权 限 、 授 权 、 证 书 以 及 条 件 8 个 部 分 组 成 ,如 图 10-3 所 示 。 使 用 控制 模型 通过 增加 
主体 属性 、 客 体 属性 \ 证 书 和 条 件 解决 了 传统 访问 模型 中 存在 的 问题 。 


CO 
da T 


图 10-3 使 用 控制 模型 授权 过 程 


10.3.2 ”数据 库 其 他 安全 访问 策略 
在 一 般 计算 机 系统 中 ,安全 措施 是 一 级 一 级 层 层 设置 的 。 当 用 户 要 求 进入 计算 机 系 
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统 时 ,系统 首先 要 对 用 户 的 身份 进行 核实 ,就 用 到 了 用 户 标识 和 鉴别 技术 。 除 了 系统 保 
护 外 ,还 有 防火 墙 等 防止 网 络 非法 访问 的 安全 技术 。 这 里 只 讨论 与 数据 库 相 关 的 用 户 标 
识 和 鉴别 技术 。 

用 户 标 识 和 鉴别 是 系统 提供 的 最 外 层 安 全 保护 措施 。 其 方法 是 由 系统 提供 一 定 的 
方式 让 用 户 标识 自己 的 名 字 或 身份 。 每 次 用 户 要 求 进 入 系统 时 ,由 系统 进行 核对 ,通过 
鉴定 后 才 提 供 使 用 权 。 对 于 获得 使 用 权 的 用 户 若 要 使 用 数据 库 时 ,数据 库 管 理 系统 还 要 
进行 用 户 标识 和 鉴定 。 用 户 标识 和 鉴定 的 方法 有 多 种 ,而且 在 一 个 系统 中 往往 是 多 种 方 
法 并 举 , 以 获得 更 强 的 安全 性 。 

CD 用 户 标 识 : 用 一 个 用 户 名 或 者 用 户 标 识 号 来 表明 用 户 身份 。 系 统 内 部 记录 着 所 
有 合法 用 户 的 标识 ,系统 在 用 户 请 求 服务 时 鉴别 此 用 户 是 不 是 合法 用 户 ,若是 , 则 可 以 进 
入 下 一 步 的 核实 ; 若 不 是 , 则 不 能 使 用 系统 。 

(2) 口令 : 为 了 进一步 核实 用 户 , 系 统 常 常 要 求 用 户 输入 口令 。 为 保密 起 见 , 用 户 在 
中 断 上 输入 的 口令 不 显示 在 屏幕 上 ,通常 以 "* ”或 ”代替 。 系 统 核对 口令 以 鉴别 用 户 
身份 。 


10.4 数据 库 水 印 技 术 


10.4.1 数据 库 水 印 分 类 


数据 库 水 印 是 指 用 信号 处 理 的 方法 在 数据 库 中 嵌入 不 易 察 觉 且 难以 去 除 的 标记 ,在 
不 破坏 数据 库 内 容 和 可 用 性 的 前 提 下 ,达到 保护 数据 库 安 全 的 目的 。 

数据 库 水 印 主要 可 以 分 为 两 类 : 鲁 棒 性 水 印 和 脆弱 性 水 印 。 鲁 棒 性 水 印 主要 应 用 于 
数据 库 的 版 权 保 护 ,攻击 者 可 能 会 试图 清除 水 印信 息 或 者 使 水 印信 息 不 可 检测 ,但 保持 
嵌入 水 印 的 数据 可 用 ,因此 这 种 水 印 要 求 具 有 非常 强 的 鲁 棒 性 ,能 抵御 各 种 恶意 攻击 ;而 
脆弱 性 水 印 则 主要 应 用 于 数据 的 算 改 检测 ,攻击 者 可 能 会 试图 修改 嵌入 水 印 后 的 数据 而 
保持 嵌入 的 水 印信 息 不 被 改动 ,脆弱 性 水 印 要求 对 数据 的 修改 非常 敏感 。 


10.4.2 数据 库 水 印 的 技术 要 求 


理想 的 数据 库 水 印 技术 应 该 充分 考虑 到 关系 数据 库 自 身 的 特殊 性 以 及 各 种 攻击 方 
式 。 其 技术 要 求 如 下 : 

CD TRAZER: 由 于 数据 库 中 的 元 余 非常 小 ,因此 在 关系 数据 库 中 难以 找到 合适 
的 水 印 嵌 入 位 置 , 只 能 在 不 影响 原始 数据 可 用 性 的 基础 上 内 入 水 印信 息 , 而 且 由 于 关系 
数据 库 中 的 数据 一 般 具 有 很 强 的 语法 结构 和 请 法 意义 ,在 水 印 嵌入 时 不 得 与 原 有 的 语法 
结构 和 语法 意义 相 矛 盾 , 即 有 可 能 某 些 数据 是 不 能 修改 的 ,这 样 的 数据 也 就 不 能 能 入 
水 印 。 

(2) 可 操作 要 求 : 关系 数据 库 中 的 数据 通常 需要 进行 一 系列 的 运算 ,那么 在 进行 一 
系列 的 运算 后 ,水 印 仍然 要 附着 于 关系 数据 库 的 数据 中 ,这 是 数据 库 水 印 研究 的 难点 之 
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一 。 要 求 水 印 数据 完全 融入 数据 库 中 的 数据 中 ,均匀 分 布 于 整个 数据 库 。 

(3) 动态 性 要 求 : 数据 拥有 者 对 带 有 水 印 的 数据 库 进行 更 新 时 ,水 印信 息 应 该 随 着 
数据 的 更 新 而 嵌入 , 且 更 新 数据 的 水 印信 息 应 与 原 数据 库 中 的 水 印信 息 保持 一 致 。 当 有 
新 的 数据 加 入 时 ,水 印信 息 应 能 实时 戏 入 ;有 数据 修改 时 ,水 印信 息 不 丢失 ;数据 正常 删 
除 时 ,要 保证 数据 库 中 水 印信 息 的 完整 性 。 

CD 盲 检 性 : 水 印 检测 时 , 既 不 需要 原始 的 水 印信 息 ,也 不 需要 原始 数据 就 可 以 从 关 
系数 据 库 的 数据 中 检测 提取 出 水 印信 息 ,实现 水 印 的 盲 提取 。 这 样 确保 非法 复制 的 数据 
库 副 本 中 的 水 印 总 能 被 检测 出 来 ,而 不 需要 依靠 可 能 已 经 更 新 的 原始 数据 库 , 这 些 副 本 
可 能 被 进一步 的 数据 整合 ,与 原始 数据 库 可 能 有 比较 大 的 不 同 。 

(5) 可 管理 性 : 带 水 印 数据 形成 的 数字 产品 ,转移 到 带 有 水 印 管理 功能 或 者 兼容 的 
数据 库 管 理 系统 中 仍然 能 够 运行 ,水 印 可 以 随 之 迁移 ,不 会 轻易 丢失 。 

(6) 二 次 水 印 问题 : 版 权 人 对 原始 数据 嵌入 水 印信 息 以 后 ,数据 产品 可 发 布 与 其 他 
人 共享 。 这 时 ,如 果 非 版 权 人 拿 到 数据 后 再 对 数据 添加 水 印 ,那么 ,原始 数据 中 既 有 版 权 
人 的 水 印信 息 , 也 新 添上 了 非 版 权 人 的 信息 ,如 果 两 次 的 水 印信 息 都 有 效 地 保留 于 原始 
数据 上 ,一 旦 发 生 版 权 纠纷 ,就 很 难 辨 明 谁 才 是 真正 的 版 权 人 人 了。 还 有 更 为 更 糟糕 情况 ， 
就 是 如 果 非 版 权 人 使 用 了 与 版 权 人 相同 的 水 印 府 入 算法 加 上 自己 的 水 印 后 就 可 能 将 版 
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还 有 另外 一 种 可 能 , 非 版 权 人 使 用 了 版 权 人 数据 的 一 部 分 ,之 后 他 在 此 基础 上 增添 
了 自己 的 数据 ,水 印 技术 需要 对 这 两 部 分 数据 分 别 进行 保护 ,水 印信 息 之 间 的 互 不 干扰 
成 为 一 大 难题 ,这 对 水 印 的 嵌入 、 检 测算 法 提出 了 更 高 的 要 求 。 


10.4.3 数据 库 水 印 的 攻击 


数据 库 在 正常 的 维护 更 新 中 ,常常 需要 删除 数据 ,插入 数据 或 更 新 数据 。 因 而 ,对 数 
据 库 水 印 的 鲁 棒 性 要 求 较 多 媒体 数字 水 印 更 高 。 嵌 入 在 数据 库 中 的 水 印信 息 不 能 因为 
对 数据 库 的 常规 操作 而 丢失 ,否则 ,水 印 技术 在 数据 库 的 版 权 保护 变 得 毫 无 意义 。 除 此 
以 外 ,数据 库 水 印 还 应 防御 各 种 各 样 的 恶意 攻击 。 常 见 的 数据 库 水 印 恶 意 攻 击 有 : 

COD 子 集 修改 攻击 : 攻击 者 希望 通过 修改 数据 库 中 的 部 分 元 组 ,去 除数 据 库 中 的 水 
印信 息 。 

(2) 子 集 选 取 攻 击 : 攻击 者 不 使 用 数据 库 中 的 全 部 属性 和 元 组 ,希望 通过 删除 数据 
库 中 的 部 分 元 组 ,去 除 水 印信 息 。 

(3) 子 集 增加 攻击 : 攻击 者 通过 向 数据 库 中 添加 元 组 的 方式 去 除 水 印信 息 。 

(4) 混合 和 匹配 攻击 : 攻击 者 从 多 个 类 似 的 数据 库 中 选取 元 组 ,创建 自己 的 数据 库 。 

(5) 可 逆 性 攻击 : 攻击 者 在 窃取 的 数据 库 中 发 现 了 一 个 随机 出 现 的 虚幻 水 印 ,就 声 
称 该 数据 库 归 他 所 有 。 

(6) 添加 攻击 : 攻击 者 在 已 经 加 有 水 印 的 数据 库 中 再 嵌入 自己 的 水 印信 息 , 并 声称 
自己 对 该 数据 库 具 有 所 有 权 。 
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10.4.4 数据 库 水 印 算法 


近 几 年 来 ,国内 外 研究 者 在 数据 库 水 印 方面 取得 了 一 些 新 的 进展 。 较 著名 的 有 IBM 
Almaden 研究 中 心 的 R. Agrawal 和 J. Kiernan 对 数据 库 进 行 的 水 印 的 家 入 和 攻击 试 
验 。 它 针对 一 个 特定 的 数据 库 , 其 中 只 包含 数值 型 数据 , 且 假 定 每 个 字段 都 能 够 添加 水 
印 ,然后 依据 水 印 密 钥 和 关键 字 确 定 需 标记 的 字段 及 位 置 。 还 有 美国 Purdue 大 学 的 R. 
Sion 等 提出 的 对 关系 数据 集合 和 数据 库 添加 水 印 的 方法 ,是 基于 “ 均 方差 "特性 对 数值 型 
字段 进行 标记 的 。 

目前 常用 的 数据 库 水 印 算法 主要 包括 以 下 两 种 。 

l. 利用 一 定 失 真 范 围 内 的 数据 变形 来 肉 入 水 印 


P. Agrawal 等 于 2002 年 首次 对 关系 数据 库 进 行 了 嵌入 比特 位 模式 的 实验 。 该 实验 
利用 数据 库 关 系 中 数值 型 元 组 存在 的 元 余 空 间 , 通 过 在 某 些 数值 型 属性 值 中 引入 少量 的 
误差 ,对 其 最 低 有 效 位 (Least Significant Bits,LSB) 进 行 位 操作 ,实现 水 印信 息 的 嵌入 。 

其 基本 思想 是 首先 假设 数据 库 中 的 数值 型 属性 可 接受 一 定 程度 的 误差 ,只 要 改变 在 
误差 范围 内 ,就 不 会 影响 数据 库 的 正常 使 用 。 水 印 嵌入 时 根据 用 户 给 定 的 密 钥 和 元 组 主 
键 值 以 及 可 以 标记 的 元 组 比例 来 确定 哪些 元 组 需要 标记 ,并 根据 可 以 标记 的 属性 和 比特 
位 数 确定 标记 的 属性 及 其 比特 位 位 置 。 然 后 将 关系 数据 库 中 符合 条 件 的 某 些 元 组 的 某 
些 数值 型 属性 值 的 比特 位 值 按 规则 置 为 1 或 0, 作 为 一 个 标记 。 这 样 ,在 整个 数据 库 中 许 
多 个 比特 位 标记 组 合 的 比特 位 模式 就 是 嵌入 的 水 印信 息 。 提 取 时 先 做 相同 的 工作 ,确定 
标记 的 位 置 , 再 记录 符合 规则 的 元 组 总 数 ,然后 与 由 置信 因子 Q 决定 的 阔 值 T 比较 来 判 
断 数 据 库 的 版 权 。 

其 中 需要 加 标记 的 元 组 、 元 组 的 属性 、 属 性 的 比特 位 位 置 以 及 具体 的 比特 值 都 是 由 
密 钥 \ 元 组 主键 值 和 需要 标记 的 元 组 比例 控制 算法 来 决定 ,这 里 密 钥 、 元 组 标记 比例 、 可 
标记 属性 数 和 比特 位 数 只 有 关系 数据 库 的 所 有 者 才 知道 。 


2. 基于 元 组 排序 和 划分 集合 实现 水 印 嵌 入 


该 方法 由 美国 普 渡 大 学 的 R. Sion 等 提出 。 首 先 根据 元 组 的 加 密 键 值 哈 希 对 其 进行 
秘密 排序 ,然后 基于 * 均 方差 ?特性 构造 子 集 , 取 连续 序列 数据 作为 嵌入 水 印 的 基本 单位 。 
通过 调整 关键 属性 数据 改变 连续 序列 数据 的 分 布 特征 来 表示 1 和 0。R. Sion 等 基于 该 
方法 开发 了 一 个 名 为 WMDB 的 数据 库 水 印 程序 包 , 显 示 了 较 好 的 透明 性 和 抗 攻击 能 力 。 

其 基本 思想 是 对 数值 型 属性 进行 标记 的 。 给 定数 值 型 项 目 集合 SS {5;,…,s,}CR， 
和 一 个 秘密 的 排序 密 钥 ; ,首先 根据 标准 化 项 目的 最 重要 比特 位 的 加 密 键 值 Hash 对 其 
进行 秘密 排序 ,例如 ,index(s) 王 瑟 (&.msb(NORM(s)),&)。 然 后 构造 子 集 S;( 即 实现 
分 组 ) 用 来 嵌入 比特 位 水 印 标记 。 假 定 水 印信 息 有 关 个 比特 位 长 , 则 整个 水 印 带宽 将 是 
m 个 比特 位 ,每 个 比特 位 嵌入 /隐藏 到 每 个 标记 的 S; 中 。 检 测 时 需要 用 到 嵌入 时 记录 的 
子 集 信息 。 

上 述 两 种 数据 库 水 印 算法 各 有 其 优 缺 点 。 第 一 类 方法 采用 基本 的 LSB 嵌入 算法 , 易 
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于 实现 ,但 水 印信 号 的 抗 攻 击 能 力 较 弱 ,而 且 难 以 嵌入 有 实际 意义 的 水 印信 息 。 第 二 类 
方法 具有 较 好 的 鲁 棒 性 ,但 如 果 数 据 库 中 不 同 字段 的 取 值 范 围 相 差 较 大 ,将 导致 计算 获 
得 的 值 只 能 对 部 分 数据 项 适用 ,限制 了 水 印 嵌 入 的 容量 。 


10.5 数据 库 安 全 管理 


10.5.1 数据 库 安全 管理 要 求 


数据 库 的 安全 性 很 大 程度 上 依赖 于 数据 库 管理 系统 。 大 多 数 的 数据 库 管 理 系统 是 
以 操作 系统 文件 作为 建 库 的 基础 ,所 以 操作 系统 安全 特别 是 文件 系统 的 安全 便 成 为 数据 
库 管理 系统 安全 的 基本 要 求 。 因 此 ,对 数据 库 的 安全 管理 可 从 数据 库 管理 系统 的 安全 运 
行 管理 和 数据 库 管理 系统 中 存储 、 传 输 和 处 理 数据 信息 的 管理 着 手 展开 研究 。 针 对 这 两 
种 安全 管理 ,主要 有 加 密 和 审计 两 种 技术 。 


10.5.2 数据 库 加 密 技术 


数据 库 加密 技 术 的 基本 思想 跟 数 据 加 密 是 一 致 的 。 它 根据 一 定 的 算法 将 原始 数据 
变 为 不 可 直接 识别 的 格式 ,从 而 使 得 不 知道 解密 算法 的 人 无 法 获知 数据 的 内 容 , 达 到 数 
据 库 数据 信息 的 安全 管理 。 主 要 的 加 密 方法 有 系统 中 加 密 、.DBMS 内 核 层 ( 服 器 端 ) 加 密 
和 DBMS 外 层 ( 客 户 端 ) 加 密 三 种 。 


1. 系统 中 加 密 


将 数据 先 在 内 存 中 进行 加 密 , 然 后 文件 系统 把 每 次 加 密 后 的 内 存 数据 写 入 数据 库 文 
件 中 去 , 读 取 时 再 逆 操 作 进 行 解密 。 

1) 数据 文件 存储 加 密 

文件 型 数据 库 系统 是 以 文件 的 形式 进行 存储 的 ,因而 可 以 使 用 加 密 文件 中 数据 的 方 
法 来 加 密 数据 库 。 首 先 将 存放 在 内 存 里 的 数据 使 用 合适 的 加 密 算 法 进行 加 密 , 然 后 对 加 
密 后 的 内 存 数据 以 数据 库 文件 的 形式 存储 在 外 部 存储 器 中 。 需 要 使 用 数据 时 ,只 需要 对 
数据 库 文件 中 的 数据 进行 解密 即 可 。 这 种 加 密 的 方法 相对 比较 简单 ,只 要 妥善 保管 密 
钥 , 就 能 够 保证 数据 库 的 安全 。 但 是 ,每 次 读 写 数据 库 都 要 进行 加 密 或 解密 ,相对 比较 麻 
烦 , 并 且 会 影响 数据 库 操作 执行 的 效率 。 

2) 数据 库 对 象 加 密 

数据 表 中 进行 数据 存储 的 最 小 单位 是 数据 项 。 因 此 ,可 以 考虑 对 数据 项 加 密 来 获得 
高 安全 性 。 采 用 数据 项 级 存储 加 密 的 方法 将 数据 库 中 不 同 的 记录 、 每 条 记录 的 不 同 字段 
都 采用 不 同 的 密 钥 加 密 。 但 此 方法 同样 大 大 降低 了 数据 库存 取 的 效率 。 而 数据 库 数据 
的 选择 性 加 密 方法 ,只 对 敏感 信息 进行 加 密 , 可 以 有 效 地 避免 频繁 加 解密 操作 对 数据 读 
取 速 度 的 影响 ,从 而 有 利于 用 户 在 效率 与 安全 性 之 间 达 到 平衡 。 
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2. DBMS 内 核 层 加 密 


在 DBMS 内 核 层 加 密 时 需要 对 数据 库 管 理 系统 本 身 进行 操作 。 这 种 加 密 是 指数 据 
在 物理 存 取 之 前 完成 加 解密 工作 。 这 种 加 密 方 式 的 优点 是 加 密 功能 强 ,并 且 加 密 功 能 几 
平 不 会 影响 DBMS 的 功能 ,可 以 实现 加 密 功 能 与 数据 库 管理 系统 之 间 的 无 缝 耦合。 其 缺 
点 是 加 密 运 算 在 服务 器 端 进行 ,加 重 了 服务 器 的 负载 ,而 且 DBMS 和 加 密 器 之 间 的 接口 
需要 DBMS 开发 商 的 支持 。 


3. DBMS 外 层 加 密 


DBMS 外 层 加 密 将 数据 库 加 密 系 统 做 成 DBMS 的 一 个 外 层 工 具 ,根据 加 密 要 求 自动 
完成 数据 库 数 据 的 加 解密 处 理 ,加 解密 运算 可 在 客户 端 进行 , 它 的 优点 是 不 会 加 重 数据 
库 服务 器 的 负载 ,并 且 可 以 实现 网 上 传输 的 加 密 , 缺 点 是 加 密 功 能 会 受到 一 些 限制 ,与 数 
据 库 管理 系统 之 间 的 耦合 性 稍 差 。 


10.5.3 数据 库 审计 技术 


审计 功能 把 用 户 对 数据 库 的 所 有 操作 自动 记录 下 来 放 入 审计 日 志 中 ,以 备 系统 管理 
员 分 析 系 统 的 访问 情况 ,以 及 违反 规则 之 后 做 追查 责任 之 用 ,达到 数据 库 运 行 的 安全 
管理 。 

审计 记录 包括 以 下 信息 : 事件 发 生 的 日 期 和 时 间 、 用 户 、 事 件 类 型 .事件 是 否 成 功 。 
当 系统 检测 到 有 危害 系统 安全 的 事件 发 生 时 ,可 以 设置 系统 发 出 自动 报警 信息 ,同时 执 
行 一 系列 的 操作 ,阻止 该 用 户 的 非法 操作 。 由 此 ,可 以 有 效 防止 来 自 外 部 的 对 用 户 计算 
机 文件 的 恶意 窃取 。 另 外 ,系统 管理 员 可 以 利用 审计 跟踪 的 信息 , 重 现 导 致 数据 库 现 有 
状况 的 一 系列 事件 , 找 出 非法 存 取 数据 的 人 、 时 间 和 内 容 等 。 

审计 一 般 可 以 分 为 用 户 级 审计 和 系统 级 审计 。 用 户 级 审计 是 任何 用 户 可 设置 的 审 
计 , 主 要 是 用 户 针 对 自己 创建 的 数据 库 表 或 视图 进行 审计 ,记录 所 有 用 户 对 这 些 表 或 视 
图 的 一 切 成 功 和 (或 ) 不 成 功 的 访问 要 求 以 及 各 种 类 型 的 操作 。 系 统 审计 职能 由 系统 管 
理 员 设置 ,用 以 监测 登录 要 求 的 成 功 或 失败 ,以 及 其 他 数据 库 级 权限 下 的 操作 。 

但 审计 通常 是 很 费时 间 和 空间 的 ,所 以 DBMS 往往 都 将 其 作为 可 选 特征 ,允许 系统 
管理 员 根 据 应 用 对 安全 性 的 要 求 ,灵活 地 打开 或 关闭 审计 功能 。 审 计 功 能 一 般 主要 用 于 
安全 性 要 求 较 高 的 部 门 。 


思 考题 


10.1 什么 是 数据 库 的 安全 性 ? 

10.2 ”如何 对 用 户 账 号 进行 授权 管理 ,一 般 有 哪些 权限 ? 请 简要 说 明 。 

10.3 为 什么 要 进行 数据 备份 ?” 数据 库 备 份 包括 哪些 主要 内 容 ? 

10.4 ”什么 是 强制 访问 控制 机 制 ? 强制 访问 机 制 如 何 防 止 “ 特 洛 伊 木马 ”的 非法 访问 ? 
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什么 是 自主 访问 机 制 ? 自主 访问 控制 机 制 与 强制 访问 控制 机 制 的 区 别 有 哪 些 ? 

数据 库 水 印 主要 类 型 有 哪些 ? 

数据 库 水 印 与 多 媒体 数字 水 印 的 区 别 是 什么 ? 什么 是 讶 检测 ? 

列 出 几 种 典型 的 数据 库 水 印 算法 。 

数据 库 加 密 技 术 有 了 哪 几 种 方法 ? 

lo 数据 库 审计 技术 的 优 缺 点 是 什么 ? 

11 即使 将 纵向 奇偶 位 作为 错误 校 验 码 ,但 仍然 检测 不 到 对 数据 库 的 算 改 ,为 什么 ? 
(纵向 奇偶 位 计算 每 个 字 节 的 第 位 ,一 个 奇偶 校 验 位 对 所 有 第 0 位 计算 并 保留 
其 值 , 另 一 个 奇偶 校 验 位 对 所 有 第 1 位 计算 ,等 等 .) 

12 多 级 安全 数据 库 管理 系统 使 用 加 密 技术 的 目的 是 什么 ? 

13 如何 通过 可 信任 操作 系统 提供 给 用 户 的 多 级 分 离 来 实现 数据 库 管理 系统 ? 

14 ”假定 操作 系统 已 经 有 安全 级 别 r,r 是 C2 或 Bl 或 B3 等 。 基 于 对 操作 系统 的 信 

任 , 定 义 一 个 数据 库 管 理 系统 的 信任 度 策略 ,并 加 以 解释 。 
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